第 16 章 贝叶斯思维与贝叶斯推断
前面几部分主要从频率学派和计算算法角度讨论统计问题:参数是固定但未知的,样本是随机的,估计量的性质通过重复抽样理解。贝叶斯方法提供了另一种组织不确定性的语言:在看到数据之前,我们用先验分布描述对未知参数的认识;看到数据之后,用后验分布更新这种认识。
对经济统计而言,贝叶斯思想并不神秘。宏观预测会使用历史经验和专家判断;小地区统计会把相邻地区的信息借过来;信用风险模型会把历史违约率与新样本结合;抽样调查中也常常需要在样本信息不足时引入外部信息。贝叶斯方法把这些做法放进统一的概率框架。
16.1 贝叶斯公式
设 \(\theta\) 是未知参数,\(y\) 是观测数据。贝叶斯公式写作
\[ p(\theta\mid y) = \frac{p(y\mid\theta)p(\theta)}{p(y)}. \]
其中:
- \(p(\theta)\) 是先验分布,表示看到数据之前对参数的认识;
- \(p(y\mid\theta)\) 是似然函数,表示给定参数时数据出现的可能性;
- \(p(\theta\mid y)\) 是后验分布,表示看到数据之后对参数的更新认识;
- \(p(y)\) 是边际似然,也称证据项,用来保证后验分布积分为 1。
边际似然为
\[ p(y)=\int p(y\mid\theta)p(\theta)\,d\theta. \]
在很多计算中,\(p(y)\) 很难求,但如果只关心后验密度的相对大小,可以写成
\[ p(\theta\mid y)\propto p(y\mid\theta)p(\theta). \]
这就是贝叶斯计算的核心形式:后验正比于似然乘以先验。
16.2 例:比例参数的 Beta–Binomial 更新
假设我们用一个模拟调查研究某类家庭是否有耐用品更新计划。令 \(\theta\) 表示总体中有更新计划的比例,在 \(n\) 个受访家庭中有 \(x\) 个回答“有”。模型为
\[ X\mid\theta\sim \operatorname{Binomial}(n,\theta). \]
选择 Beta 先验
\[ \theta\sim \operatorname{Beta}(a,b). \]
Beta 分布的密度为
\[ p(\theta) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \theta^{a-1}(1-\theta)^{b-1}, \quad 0<\theta<1. \]
其中 \(a\) 和 \(b\) 控制先验形状。结合二项似然后,后验仍为 Beta 分布:
\[ \theta\mid x \sim \operatorname{Beta}(a+x,b+n-x). \]
这个结果说明,先验中的 \(a\) 和 \(b\) 可以粗略理解为先验成功次数和失败次数的信息量。
n <- 400
x <- 126
a <- 2
b <- 8
a_post <- a + x
b_post <- b + n - x
c(prior_mean = a / (a + b),
sample_prop = x / n,
posterior_mean = a_post / (a_post + b_post),
posterior_q025 = qbeta(0.025, a_post, b_post),
posterior_q975 = qbeta(0.975, a_post, b_post))
#> prior_mean sample_prop posterior_mean posterior_q025 posterior_q975
#> 0.2000 0.3150 0.3122 0.2683 0.3578后验均值位于先验均值和样本比例之间。当样本量较大时,数据影响更强;当样本量较小时,先验影响更明显。
16.3 后验区间与解释
贝叶斯推断常用可信区间(credible interval)描述参数不确定性。例如,95% 后验可信区间\([L,U]\) 满足
\[ P(L\leq \theta\leq U\mid y)=0.95. \]
它的解释是:在给定模型、先验和数据后,参数落在该区间内的后验概率为 95%。这与频率学派置信区间的重复抽样解释不同。二者都可以用于不确定性表达,但背后的概率含义不同。
在应用中,贝叶斯区间的解释更接近很多人的直觉,但它依赖先验和模型设定。因此,报告贝叶斯结果时应说明先验选择,并在必要时做敏感性分析。
16.4 Normal–Normal 模型
再看一个连续变量例子。设 \(y_1,\ldots,y_n\) 是家庭月消费支出,近似满足
\[ y_i\mid\mu\sim N(\mu,\sigma^2), \]
其中 \(\sigma^2\) 暂时视为已知,\(\mu\) 是总体平均消费。选择正态先验
\[ \mu\sim N(\mu_0,\tau_0^2). \]
则后验仍为正态分布:
\[ \mu\mid y \sim N(\mu_n,\tau_n^2), \]
其中
\[ \tau_n^2 = \left(\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}\right)^{-1}, \]
\[ \mu_n = \tau_n^2 \left( \frac{\mu_0}{\tau_0^2} + \frac{n\bar y}{\sigma^2} \right). \]
这里 \(\bar y\) 是样本均值。后验均值是先验均值和样本均值的加权平均,权重由各自的不确定性决定。
set.seed(2026)
n <- 80
y <- rnorm(n, mean = 5.8, sd = 1.2)
mu0 <- 5
tau0 <- 1
sigma <- 1.2
tau_n2 <- 1 / (1 / tau0^2 + n / sigma^2)
mu_n <- tau_n2 * (mu0 / tau0^2 + n * mean(y) / sigma^2)
c(sample_mean = mean(y),
posterior_mean = mu_n,
posterior_sd = sqrt(tau_n2),
q025 = qnorm(0.025, mu_n, sqrt(tau_n2)),
q975 = qnorm(0.975, mu_n, sqrt(tau_n2)))
#> sample_mean posterior_mean posterior_sd q025 q975
#> 5.697 5.685 0.133 5.424 5.946这个例子也展示了贝叶斯更新的直觉:样本量越大,后验越集中;先验越不确定,数据权重越大。
16.5 先验选择与敏感性分析
先验不是随意填写的数字。常见先验来源包括:
- 以往调查或历史数据;
- 专家经验和制度背景;
- 为稳定计算设置的弱信息先验;
- 为表达明确约束设置的结构性先验。
如果结论对先验非常敏感,就应该诚实报告。下面比较 Beta–Binomial 例子中不同先验下的后验均值。
priors <- data.frame(a = c(1, 2, 10, 30),
b = c(1, 8, 10, 70))
priors$prior_mean <- priors$a / (priors$a + priors$b)
priors$post_mean <- (priors$a + x) / (priors$a + priors$b + n)
priors
#> a b prior_mean post_mean
#> 1 1 1 0.5 1.5488
#> 2 2 8 0.2 1.4222
#> 3 10 10 0.5 1.3600
#> 4 30 70 0.3 0.8667当先验信息量很大且与数据差异明显时,后验会受到更强影响。对于本科课程,重要的是理解这种影响,而不是把“客观先验”和“主观先验”的哲学争论展开得过深。