19.4. 似然思想#
Question
考虑有两个盒子各有 100 个球,记为 A 盒和 B 盒。A 盒中有 99 个白球,1 个黑球;B 盒中有 1 个白球,99 个黑球。我们从某个盒子中抽出了一个球,发现这个球是白球。请问:我们是从哪个盒子中抽出球的?
Remark
似然思想的本质是“以成败论英雄”。
最大似然估计,顾名思义就是使得似然函数的最大值点。
Question
什么是似然函数?
- 似然函数
设总体分布的概率分布列或概率密度函数为 \(p(x;\theta)\) ,其中 \(\theta\) 是未知参数。而 \(x_1,x_2,\cdots,x_n\) 是样本。 \(x_1,x_2,\cdots,x_n\) 的联合分布列或联合密度函数为
对于未知参数 \(\theta\) 而言,称 \(p(x_1,x_2,\cdots,x_n;\theta)\) 为似然函数,记为 \(L(\theta)\) .
既然我们明确了,似然函数本质上就是样本的联合概率(质量/密度)函数。将其看成参数的函数,这个函数就是似然函数。于是,我们给出最大似然估计明确的定义。
- 最大似然估计
设 \(\theta\) 是待估参数, \(L(\theta)\) 是似然函数。如果统计量 \(\hat{\theta} = \hat{\theta}(x_1,x_2,\cdots,x_n)\) 满足
那么称 \(\hat{\theta}\) 是 \(\theta\) 的最大似然估计,记为 MLE(maximum likelihood estimate)。
Remark
这里 \(\overline{\Theta}\) 包括 \(\theta\) 的定义域 \(\Theta\) 及其边界。
Question
最大似然估计怎么求?
求最大似然估计的一般步骤为
求对数似然函数,即 \(l(\theta) = \ln L(\theta)\) .
求对数似然函数的驻点 \(\hat{\theta}\) ,即 \(\hat{\theta}\) 满足
验证 \(\hat{\theta}\) 是 \(L(\theta)\) 或 \(l(\theta)\) 的最大值点。
Remark
从上述步骤来看,就是找似然函数或者对数似然函数的最大值点,这才是本质问题。
Example 19.5
设总体分布 \(X\sim b(1,\theta)\) ,而 \(x_1,x_2,\cdots,x_n\) 是样本。于是, \(x_1,x_2,\cdots,x_n\) 的联合分布列为
这也是似然函数,记为 \(L(\theta)\) 。然后,对数似然函数为
对 \(l(\theta)\) 关于 \(\theta\) 求导,即
由此可得
我们还可以验证
所以, \(\hat{\theta}\) 是 \(l(\theta)\) 最大值点。因此, \(\theta\) 的最大似然估计为 \(\bar{x}\) .
Example 19.6
设该实验的三种结果分别是 \(a_1,a_2,a_3\) 。于是,分布列如表 Table 19.2 。 这里我们介绍 \(\theta\) 的最大似然估计。
结果 |
\(a_1\) |
\(a_2\) |
\(a_3\) |
|---|---|---|---|
概率 |
\(\theta^2\) |
\(2\theta(1-\theta)\) |
\((1-\theta)^2\) |
频率 |
\(\frac{n_1}{n}\) |
\(\frac{n_2}{n}\) |
\(\frac{n_3}{n}\) |
首先,似然函数为
而对数似然函数为
然后对 \(l(\theta)\) 关于 \(\theta\) 求导,即
可以解得
Remark
“求导”是求最大似然估计最常用的方法,但并不是在所有场合求导都有效。
Example 19.7
设总体分布 \(U(0,\theta)\) ,而 \(x_1,x_2,\cdots,x_n\) 是样本。 \(\theta\) 的似然函数为
要使得 \(L(\theta)\) 达到最大。对于示性函数取值应为 1,而 \(1/(\theta^n)\) 是 \(\theta\) 的减函数。所以, \(\theta\) 的取值应尽可能小,而 \(\theta\) 要大于 \(x_{(n)}\) ,所以 \(\Theta = (x_{(n)},\infty)\) ,而 \(\overline{\Theta} = [x_{(n)},\infty)\) 。因此, \(\theta\) 的最大似然估计为
以上的例子都是一维参数的情况,以下我们举一个二维参数的例子。
Example 19.8
设总体分布 \(X\sim N(\mu,\sigma^2)\) , \(\theta = (\mu,\sigma^2)\) 是二维参数。而 \(x_1,x_2,\cdots,x_n\) 是样本。于是,似然函数为
而其对数似然函数为
对 \(l(\mu,\sigma^2)\) 分别关于 \(\mu\) 和 \(\sigma^2\) 求导,即
由此解得
Question
如何求 \(\sigma\) 的最大似然估计?
Property 19.1 (最大似然估计的不变性)
如果 \(\hat{\theta}\) 是 \(\theta\) 的最大似然估计, 则对任一函数 \(g(\theta)\) , \(g(\hat{\theta})\) 是其最大似然估计。