第 16 章 贝叶斯思维与贝叶斯推断

前面几部分主要从频率学派和计算算法角度讨论统计问题:参数是固定但未知的,样本是随机的,估计量的性质通过重复抽样理解。贝叶斯方法提供了另一种组织不确定性的语言:在看到数据之前,我们用先验分布描述对未知参数的认识;看到数据之后,用后验分布更新这种认识。

对经济统计而言,贝叶斯思想并不神秘。宏观预测会使用历史经验和专家判断;小地区统计会把相邻地区的信息借过来;信用风险模型会把历史违约率与新样本结合;抽样调查中也常常需要在样本信息不足时引入外部信息。贝叶斯方法把这些做法放进统一的概率框架。

16.1 贝叶斯公式

\(\theta\) 是未知参数,\(y\) 是观测数据。贝叶斯公式写作

\[ p(\theta\mid y) = \frac{p(y\mid\theta)p(\theta)}{p(y)}. \]

其中:

  1. \(p(\theta)\) 是先验分布,表示看到数据之前对参数的认识;
  2. \(p(y\mid\theta)\) 是似然函数,表示给定参数时数据出现的可能性;
  3. \(p(\theta\mid y)\) 是后验分布,表示看到数据之后对参数的更新认识;
  4. \(p(y)\) 是边际似然,也称证据项,用来保证后验分布积分为 1。

边际似然为

\[ p(y)=\int p(y\mid\theta)p(\theta)\,d\theta. \]

在很多计算中,\(p(y)\) 很难求,但如果只关心后验密度的相对大小,可以写成

\[ p(\theta\mid y)\propto p(y\mid\theta)p(\theta). \]

这就是贝叶斯计算的核心形式:后验正比于似然乘以先验。

16.2 例:比例参数的 Beta–Binomial 更新

假设我们用一个模拟调查研究某类家庭是否有耐用品更新计划。令 \(\theta\) 表示总体中有更新计划的比例,在 \(n\) 个受访家庭中有 \(x\) 个回答“有”。模型为

\[ X\mid\theta\sim \operatorname{Binomial}(n,\theta). \]

选择 Beta 先验

\[ \theta\sim \operatorname{Beta}(a,b). \]

Beta 分布的密度为

\[ p(\theta) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \theta^{a-1}(1-\theta)^{b-1}, \quad 0<\theta<1. \]

其中 \(a\)\(b\) 控制先验形状。结合二项似然后,后验仍为 Beta 分布:

\[ \theta\mid x \sim \operatorname{Beta}(a+x,b+n-x). \]

这个结果说明,先验中的 \(a\)\(b\) 可以粗略理解为先验成功次数和失败次数的信息量。

n <- 400
x <- 126
a <- 2
b <- 8

a_post <- a + x
b_post <- b + n - x

c(prior_mean = a / (a + b),
  sample_prop = x / n,
  posterior_mean = a_post / (a_post + b_post),
  posterior_q025 = qbeta(0.025, a_post, b_post),
  posterior_q975 = qbeta(0.975, a_post, b_post))
#>     prior_mean    sample_prop posterior_mean posterior_q025 posterior_q975 
#>         0.2000         0.3150         0.3122         0.2683         0.3578

后验均值位于先验均值和样本比例之间。当样本量较大时,数据影响更强;当样本量较小时,先验影响更明显。

16.3 后验区间与解释

贝叶斯推断常用可信区间(credible interval)描述参数不确定性。例如,95% 后验可信区间\([L,U]\) 满足

\[ P(L\leq \theta\leq U\mid y)=0.95. \]

它的解释是:在给定模型、先验和数据后,参数落在该区间内的后验概率为 95%。这与频率学派置信区间的重复抽样解释不同。二者都可以用于不确定性表达,但背后的概率含义不同。

在应用中,贝叶斯区间的解释更接近很多人的直觉,但它依赖先验和模型设定。因此,报告贝叶斯结果时应说明先验选择,并在必要时做敏感性分析。

16.4 Normal–Normal 模型

再看一个连续变量例子。设 \(y_1,\ldots,y_n\) 是家庭月消费支出,近似满足

\[ y_i\mid\mu\sim N(\mu,\sigma^2), \]

其中 \(\sigma^2\) 暂时视为已知,\(\mu\) 是总体平均消费。选择正态先验

\[ \mu\sim N(\mu_0,\tau_0^2). \]

则后验仍为正态分布:

\[ \mu\mid y \sim N(\mu_n,\tau_n^2), \]

其中

\[ \tau_n^2 = \left(\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}\right)^{-1}, \]

\[ \mu_n = \tau_n^2 \left( \frac{\mu_0}{\tau_0^2} + \frac{n\bar y}{\sigma^2} \right). \]

这里 \(\bar y\) 是样本均值。后验均值是先验均值和样本均值的加权平均,权重由各自的不确定性决定。

set.seed(2026)
n <- 80
y <- rnorm(n, mean = 5.8, sd = 1.2)

mu0 <- 5
tau0 <- 1
sigma <- 1.2

tau_n2 <- 1 / (1 / tau0^2 + n / sigma^2)
mu_n <- tau_n2 * (mu0 / tau0^2 + n * mean(y) / sigma^2)

c(sample_mean = mean(y),
  posterior_mean = mu_n,
  posterior_sd = sqrt(tau_n2),
  q025 = qnorm(0.025, mu_n, sqrt(tau_n2)),
  q975 = qnorm(0.975, mu_n, sqrt(tau_n2)))
#>    sample_mean posterior_mean   posterior_sd           q025           q975 
#>          5.697          5.685          0.133          5.424          5.946

这个例子也展示了贝叶斯更新的直觉:样本量越大,后验越集中;先验越不确定,数据权重越大。

16.5 先验选择与敏感性分析

先验不是随意填写的数字。常见先验来源包括:

  1. 以往调查或历史数据;
  2. 专家经验和制度背景;
  3. 为稳定计算设置的弱信息先验;
  4. 为表达明确约束设置的结构性先验。

如果结论对先验非常敏感,就应该诚实报告。下面比较 Beta–Binomial 例子中不同先验下的后验均值。

priors <- data.frame(a = c(1, 2, 10, 30),
                     b = c(1, 8, 10, 70))
priors$prior_mean <- priors$a / (priors$a + priors$b)
priors$post_mean <- (priors$a + x) / (priors$a + priors$b + n)
priors
#>    a  b prior_mean post_mean
#> 1  1  1        0.5    1.5488
#> 2  2  8        0.2    1.4222
#> 3 10 10        0.5    1.3600
#> 4 30 70        0.3    0.8667

当先验信息量很大且与数据差异明显时,后验会受到更强影响。对于本科课程,重要的是理解这种影响,而不是把“客观先验”和“主观先验”的哲学争论展开得过深。

16.6 本章小结

贝叶斯推断用先验、似然和后验组织统计不确定性。Beta–Binomial 和 Normal–Normal 模型展示了共轭更新的基本逻辑:后验综合了先验信息和样本信息。贝叶斯可信区间可以直接表达给定数据后的参数概率,但其解释依赖模型和先验。后续章节将讨论当后验没有解析形式时,如何用网格、优化、Laplace 近似、Monte Carlo 和 MCMC 完成计算。

16.7 练习

  1. 在 Beta–Binomial 例子中,把样本量改为 40,比较不同先验对后验均值的影响。
  2. 对 Normal–Normal 模型,改变先验标准差 \(\tau_0\),观察后验标准差如何变化。
  3. 解释“后验正比于似然乘以先验”为什么在 MCMC 中很重要。
  4. 用自己的话比较可信区间和置信区间的解释差异。