20.2. 有限样本的评估方式——均方误差#
在评估估计方法时,一个非常直观的想法是比较我得到的估计值与真实值之间的差异。如果差异越小,估计方法越好。而我们所得到的估计值本身是样本的函数,不仅仅依赖于函数的构造(估计方法),也依赖于样本的质量。我们采取了“平均化”的策略尽可能地消除样本所造成的影响。于是,我们构建了以下指标——均方误差。
- 均方误差
若 \(\hat{\theta}\) 是参数 \(\theta\) 的一个估计。称
为 \(\hat{\theta}\) 的均方误差(Mean Squared Error, MSE)。
Remark
均方误差是评价点估计的最一般的标准。希望点估计的均方误差越小越好。
通过分解,我们可以发现
其中,最后一个等式成立,是因为交叉项 \(E\left((\hat{\theta}-E(\hat{\theta})) \cdot(E(\hat{\theta})-\theta) \right)=0\) 。
Remark
点估计的均方误差可以分解为两个部分:
\(E(\hat{\theta}-E(\hat{\theta}))^{2}\) 可记为 \(\text{Var}(\hat{\theta})\) ,表示点估计的方差;
\((E(\hat{\theta})-\theta)^{2}\) 可记为 \(\text{Bias}^2(\hat{\theta})\) ,表示点估计偏差的平方。
20.2.1. 无偏性#
估计的无偏性是最常见的性质,它是重要的,但不是必要的。
- 无偏性
设 \(\theta\) 是我们待估计的参数,而 \(\hat{\theta}\) 是 \(\theta\) 的一个点估计。如果 \(\hat{\theta}\) 满足
则称 \(\hat{\theta}\) 是 \(\theta\) 的无偏估计(Unbiased Estimate,U.E.)。
Remark
倘若一个点估计是无偏估计,这个点估计的偏差为零,即 \(E_{\theta} (\hat{\theta}) -\theta =0\) ;而与无偏估计相对,我们统一地称不具有无偏估计的估计是有偏估计。
Example 20.1
若总体分布为一个未知分布,其分布函数记为 \(F(x)\) 。设其期望为 \(\mu\) ,即 \(E(X) = \mu\) ,方差为 \(\sigma^2\) ,即 \(\text{Var}(X) =\sigma^2\) 。现有样本 \(x_1,x_2,\cdots,x_n\) 。 通常,样本均值 \(\bar{x}\) 是总体均值 \(\mu\) 的一个估计。我们可以计算 \(\bar{x}\) 的期望,即
于是, \(\bar{x}\) 是 \(\mu\) 的无偏估计。 而样本方差 \(s^2 = \frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\) 来估计总体方差。我们可以计算 \(s_n^2\) 的期望,即
于是, \(s_n^2\) 不是 \(\sigma^2\) 的无偏估计。 因为 \(E\left(s_{n}^{2}\right)=\frac{n-1}{n} \sigma^{2}\) , \(S_{n}^{2}\) 不是无偏估计。 但易于证明 \(s^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2\) 是 \(\sigma^2\) 的无偏估计。
Remark
回看样本方差 \(s_n^2\) ,这个估计量的偏差为
当样本量 \(n\) 越大时, \(s_n^2\) 的偏差越接近 0,而 \(s_n^2\) 的期望也越接近 \(\sigma^2\) 。于是,我们称 \(s_n^2\) 是 \(\sigma^2\) 的渐近无偏估计。
Question
总体标准差 \(\sigma\) 的无偏估计会是怎样的?样本标准差 \(s\) 是 \(\sigma\) 的无偏估计吗?
Example 20.2
考虑总体分布为 \(N(\mu,\sigma^2)\) , \(\mu\) 和 \(\sigma^2\) 均是待估参数。现有样本 \(x_1,x_2,\cdots,x_n\) 。已知样本方差 \(s^2\) 为
而样本标准差 \(s = \sqrt{s^2}\) 。 为计算 \(s\) 的期望,我们先来回顾一下 \(s^2\) 的分布。我们知道在正态分布假定下,
因为 \(s = (s^2)^{1/2}\) ,我们来看待一般的伽马分布 \(Y \sim Ga(\alpha,\gamma)\) 的 \(k\) 阶矩的期望。
于是,
即
因此,
而 \(c_n = \left(\sqrt{\frac{2}{n-1}} \frac{\Gamma\left(\frac{n}{2}\right)}{\Gamma\left(\frac{n-1}{2}\right)}\right)^{-1}\) 就是修偏系数。当 \(n\) 充分大时,这个修偏系数接近 1。于是在实际使用时,我们通常忽略这个修偏系数,直接用样本标准差来估计总体标准差。
Remark
\(s\) 是 \(\sigma\) 的有偏估计;
\(s\) 是 \(\sigma\) 的渐近无偏估计;
\(c_n s\) 是 \(\sigma\) 的无偏估计,但实际中我们不纠偏。
值得注意的是,不是所有的参数都有无偏估计。在本课程中,如果一个参数的任何估计都不是无偏的,那么称这个参数不可估。以下介绍一个例子,供同学们课后阅读。
Example 20.3
设总体为二点分布 \(b(1,p),0<p<1\) 。 \(x_1,x_2,\cdots,x_n\) 是样本,令参数为 \(\theta = 1/p\) 。以下说明 \(\theta\) 是不可估的。
首先, \(T = x_1+x_2+\cdots+x_n\) 是充分统计量,则 \(T\sim b(n,p)\) 。若有一个 \(\hat{\theta} = \hat{\theta}(t)\) 是 \(\theta\) 的无偏估计,则有
也就是说,
这是 \(p\) 的 \(n+1\) 次方程,最多有 \(n+1\) 个实根,要使它对 \((0,1)\) 中所有的 \(p\) 都成立是不可能的,故参数 \(\theta = 1/p\) 是不可估的。
其次,若有某个 \(h(x_1,x_2,\cdots,x_n)\) 是 \(\theta\) 的无偏估计,则令 \(\tilde{\theta} = E(h(x_1,x_2,\cdots,x_n)|T)\) 。由重期望公式可知,
这说明 \(\tilde{\theta}(T)\) 是 \(\theta\) 的无偏估计。因此这是不可能的。
20.2.2. 有效性#
Question
对于同一个参数 \(\theta\) ,无偏估计仍有很多,如何在无偏估计中进行选择?
设 \(\hat{\theta}_1,\hat{\theta}_2\) 是 \(\theta\) 的两个无偏估计。如果对任意的 \(\theta\in \Theta\) 有
且至少有一个 \(\theta \in \Theta\) 使得上述不等号严格成立,则称 \(\hat{\theta}_1\) 比 \(\hat{\theta}_2\) 更有效。
Remark
对无偏估计而言,方差越小的无偏估计越有效。
Example 20.4
设 \(x_1,x_2,\cdots,x_n\) 是来自均匀总体 \(U(0,\theta)\) 的样本,现有两个无偏估计。
\(\theta\) 的一个估计为 \(\hat{\theta}_1 = \frac{n+1}{n}x_{(n)}\) 。 因为 \(x_{(n)}/\theta\sim Be(n,1)\) ,所以 \(E(x_{(n)}) = \frac{n}{n+1}\theta\) ,而
于是, \(\hat{\theta}_1\) 是 \(\theta\) 的无偏估计,其方差为
\(\theta\) 的另一个估计为 \(\hat{\theta}_2 = 2\bar{x}\) 。可以计算
而
根据比较可知,当 \(n>1\) 时, \(\hat{\theta}_1\) 比 \(\hat{\theta}_2\) 更有效。
Remark
我们发现: \(\hat{\theta}_1\) 是 \(x_{(n)}\) 的函数,而 \(x_{(n)}\) 是 \(\theta\) 的充分统计量。
Question
对于任意 \(\theta \in \Theta\) ,我们能否找到一致最小均方误差估计 \(\hat{\theta}\) ,即
Remark
在无偏估计类中,存在一致最小均方误差估计,此时一致最小均方误差估计为一致最小方差无偏估计(Uniformly Minimum Variance Unbiased Estimate, UMVUE)。对于 UMVUE 这里不再深入探讨,感兴趣的同学可以自行阅读《概率论与数理统计教程》6.4 最小方差无偏估计这一节进行了解,属于选修内容。
20.2.3. 充分性原则#
在例 Example 20.4 中,我们发现在两个无偏估计 \(\hat{\theta}_1 = \frac{n+1}{n}x_{(n)}\) 和 \(\hat{\theta}_2 = 2\bar{x}\) 中,更优的估计是 \(\hat{\theta}_1\) ,其是充分统计量 \(x_{(n)}\) 的函数。
Question
由充分统计量得到的估计更优,这是偶然吗?
Theorem 20.1 (Rao-Blackwell 定理)
设总体概率函数是 \(p(x;\theta)\) , \(x_1,x_2,\cdots,x_n\) 是其样本, \(T = T(x_1,x_2,\cdots,x_n)\) 是 \(\theta\) 的充分统计量。则对 \(\theta\) 的任一无偏估计 \(\hat{\theta} = \hat{\theta}(x_1,x_2,\cdots,x_n)\) ,令 \(\tilde{\theta} = E(\hat{\theta}|T)\) ,有 \(\tilde{\theta}\) 也是 \(\theta\) 的无偏估计,且
Proof
第一,欲证明 \(\tilde{\theta}\) 是 \(\theta\) 的无偏估计,即
其中,第二个等号成立是由于重期望公式。 第二,考察 \(\tilde{\theta}\) 的方差,即
其中交叉项为
Remark
Rao-Blackwell 定理表明,对于任何无偏估计,如果其不是充分统计量的函数,那么将其对充分统计量求条件期望可以得到一个新的无偏估计,而且该估计的方差比原来的估计方差要小。
Example 20.5
总体分布为泊松分布 \(P(\lambda)\) ,其中参数 \(\lambda >0\) 。先有两个样本 \(x_1,x_2\) 。 \(x_1,x_2\) 的联合分布列为
令 \(T(x_1,x_2)=x_1+x_2\) , \(g(t,\lambda) = \lambda^{t} e^{-2\lambda}\) 和 \(h(x_1,x_2) = \frac{1}{x_1!x_2!}\) 。根据因子分解定理,有 \(T(x_1,x_2) = x_1+x_2\) 是充分的。而 \(T(x_1,x_2)\sim P(2\lambda)\) 。
因为 \(E(x_1) = \lambda\) ,所以 \(\hat{\lambda}= x_1\) 是 \(\lambda\) 的无偏估计。令 \(\tilde{\lambda} = E(\hat{\lambda}|T)\) 。则
且
我们分别可以计算
所以, \(\tilde{\lambda}\) 的方差更小。
Remark
在考虑 \(\theta\) 的估计问题中,我们只需要基于充分统计量的函数来构造。这就是充分性原则,在所有统计推断的问题中都是成立的。
以下例子由同学课后自己自行理解。
Example 20.6
设 \(x_1,x_2,\cdots,x_n\) 是来自 \(b(1,p)\) 的样本,则 \(\bar{x}\) (或 \(T = n\bar{x}\) )是 \(p\) 的充分统计量。为估计 \(\theta = p^2\) ,可令
由于
所以, \(\hat{\theta}_1\) 是 \(\theta\) 的无偏估计。这个估计并不好,因为它只用了两个观测值。但我们可以用 Rao-Blackwell 定理来优化这个估计。具体过程如下:
其中, \(t=\sum_{i=1}^n x_i\) 。可以验证, \(\hat{\theta}\) 是 \(\theta\) 的无偏估计,且 \(\text{Var}(\hat{\theta}) < \text{Var}(\hat{\theta}_1)\) 。