24.3. 点估计#
Example 24.2
回顾工厂生产产品的例子。我们想要估计产品的合格率 \(\theta\) 。
现有样本 \(x_1,x_2,\cdots,x_n\) 。每一个样本表示所抽中的产品是合格品还是不合格品。如果该产品是合格品,记 \(x_i\) 为 1;如果该产品是不合格品,记 \(x_i\) 为 0。用伯努利分布来刻画该数据分布,即 \(x_i|\theta \sim b(1,\theta),i=1,2,\cdots,n\) 。
在估计之前,我们需要对参数 \(\theta\) 有一个认识,即认为 \(\theta\) 有一个先验分布。如何假定 \(\theta\) 的先验分布? \(\theta\) 表示 \((0,1)\) 之间的一个实数。根据我们所掌握的分布,可以采用贝塔分布 \(Be(a,b)\) 来刻画这个分布。称 \(a,b\) 为超参数。如何估计这两个超参数呢?
倘若有 \(m\) 天的历史数据 \((n_1,x_1),\cdots,(n_m,x_m)\) ,可以得到 \(\theta\) 的一个分布 \(\pi(\theta)\) 。假定 \(\pi(\theta) = Be(a,b)\) ,这里两个超参数 \(a\) 和 \(b\) 可以通过矩估计来获得。
倘若没有历史数据,我们认为 \(\theta\) 在 \((0,1)\) 区间上的取值是等可能的,也就是说,可以用 \(U(0,1) = Be(1,1)\) 来刻画这个先验分布。这就是“同等无知”的假定。
无论有无历史数据,我们可以得到先验分布 \(Be(a,b)\) 。
我们需要求出 \(\theta\) 的后验分布。贝叶斯公式就是其中所需要使用的关键。 设样本分布为 \(p(x_1,x_2,\cdots,x_n|\theta)\) 。于是 \((x_1,x_2,\cdots,x_n,\theta)\) 的联合概率函数为
令
于是,
因此, \(\theta|x_1,x_2,\cdots,x_n \sim Be(a+\sum_{i=1}^n x_i,b+n-\sum_{i=1}^n x_i)\) ,这就是 \(\theta\) 的后验分布。
基于后验分布,我们如何得到 \(\theta\) 的点估计呢?
MAP 估计,指的是求最大后验概率估计( Maximum a Posteriori Probability estimator)。令
该函数只有唯一最大值。我们可以对 \(l(\theta)\) 关于 \(\theta\) 求导,即
解得
后验期望估计,指的是求后验分布的期望,又称为贝叶斯估计。 我们取后验分布的均值,即
以下我们介绍一个例子。
Example 24.3
样本 \(x_1,x_2,\cdots,x_n\) 来自于正态分布 \(N(\mu,\sigma_0^2)\) 。 \(\mu\) 的先验分布为 \(N(\mu_0,\tau^2)\) 。求 \(\mu\) 的贝叶斯估计。
Solution
\(\mu\) 的先验分布为
而样本 \((x_1,x_2,\cdots,x_n)\) 的联合密度函数为
于是, \(\mu\) 的后验分布为
其中, \(A = \left( \frac{1}{\tau^2} + \frac{1}{\sigma_0^2/n}\right)\) 和 \(B = \left( \frac{\mu_0}{\tau^2} + \frac{\bar{x}}{\sigma_0^2/n}\right)\) 。 这里利用配方公式,我们可知,
从分布核中可以发现, \(\mu\) 的后验分布是正态分布 \(N\left(\frac{B}{A},A^{-1}\right)\) ,即
基于后验分布,MAP 估计和后验期望估计一致的,即
Remark
在正态分布的例子中,均值 \(\mu\) 的贝叶斯估计本质上是先验分布均值 \(\mu_0\) 和样本均值 \(\bar{x}\) 的加权平均数,其权重本质上是该分布的方差的倒数,也称为该分布的精度。
所求的后验分布与先验分布的分布都是正态分布,这是贝叶斯估计里一种特殊且具有一定普遍性的现象。
- 共轭先验分布(族)
若后验分布 \(\pi \left(\theta \mid x_{1}, \cdots, x_{n}\right)\) 与先验分布属于同一分布族,则称该分布族是 \(\theta\) 的共轭先验分布(族)。
这里我们针对贝叶斯估计做一些更为深入的讨论。
Remark
充分性原则体现在贝叶斯估计之中。 由于贝叶斯估计是根据参数的后验分布求得的,而参数的后验分布为
其中第二个等式成立是根据因子分解定理, \(t(x_1,x_2,\cdots,x_n)\) 是 \(\theta\) 的充分统计量。
贝叶斯估计是一种整体最优的估计方法。 对于 \(\theta\) 的任意一种估计 \(\hat{\theta}(x_1,x_2,\cdots,x_n)\) ,我们之前介绍过可以通过均方误差来进行评价,即
这里 \(\boldsymbol{x} = (x_1,x_2,\cdots,x_n)'\) 。我们之前在介绍均方误差时,参数 \(\theta\) 认为是一个未知常数,但在贝叶斯学派中, \(\theta\) 认为是一个随机变量,所以 \(MSE(\hat{\theta})\) 也被认为是一个随机变量,其依赖于 \(\theta\) 。我们可以整体来比较估计的均方误差,于是计算均方误差的期望,即
令 \(\int_{\theta \in \Theta} (\hat{\theta}-\theta)^2 \pi(\theta|\mathbf{x}) \text{d} \theta\) 为 \(R(\hat{\theta}|\mathbf{x})\) ,称其为条件风险函数。对于给定的样本 \(\mathbf{x} = (x_1,x_2,\cdots,x_n)'\) ,我们所求的贝叶斯估计是使得条件风险函数最小的估计,即
我们对 \(R(\hat{\theta}|\mathbf{x})\) 关于 \(\hat{\theta}\) 求导,即
其中第二个等式成立是有条件的。如果感兴趣的同学可以参考华东师范大学数学系编写的《数学分析(下册)》第 187 页定理 19.3。 令
即
这就是我们定义的贝叶斯估计。
24.3.1. 参考书目#
对贝叶斯学派感兴趣的同学,这里提供了一些贝叶斯统计方面的学习资料列表。
Gelman A, Carlin J B, Stern H S, et al. Bayesian data analysis[M]. CRC press, 2013.
B 站:《贝叶斯统计 梅长林 西安交通大学》系列视频.
茆诗松,汤银才.贝叶斯统计. 中国统计出版社.