18.2. 定义#
为了阐述清楚充分统计量,我们先讲以下这个简单的例子。
Example 18.1
30 秒口算是小学数学课课前一项测试。在表中是四位同学的 20 题的结果。
题号 |
学生 1 |
学生 2 |
学生 3 |
学生 4 |
|---|---|---|---|---|
1 |
\(\surd\) |
\(\times\) |
\(\surd\) |
\(\times\) |
2 |
\(\times\) |
\(\times\) |
\(\surd\) |
\(\times\) |
3 |
\(\surd\) |
\(\surd\) |
\(\surd\) |
\(\surd\) |
4 |
\(\surd\) |
\(\surd\) |
\(\surd\) |
\(\surd\) |
5 |
\(\surd\) |
\(\surd\) |
\(\times\) |
\(\surd\) |
6 |
\(\surd\) |
\(\surd\) |
\(\surd\) |
\(\surd\) |
7 |
\(\surd\) |
\(\surd\) |
\(\surd\) |
\(\surd\) |
8 |
\(\times\) |
\(\surd\) |
\(\surd\) |
\(\surd\) |
9 |
\(\surd\) |
\(\surd\) |
\(\times\) |
\(\surd\) |
10 |
\(\surd\) |
\(\surd\) |
\(\surd\) |
\(\surd\) |
11 |
\(\surd\) |
\(\surd\) |
\(\surd\) |
\(\surd\) |
12 |
\(\surd\) |
\(\surd\) |
\(\surd\) |
\(\times\) |
13 |
\(\surd\) |
\(\times\) |
\(\surd\) |
\(\surd\) |
14 |
\(\times\) |
\(\surd\) |
\(\surd\) |
\(\surd\) |
15 |
\(\surd\) |
\(\surd\) |
\(\times\) |
\(\surd\) |
16 |
\(\surd\) |
\(\surd\) |
\(\surd\) |
\(\surd\) |
17 |
\(\times\) |
\(\surd\) |
\(\surd\) |
\(\times\) |
18 |
\(\surd\) |
\(\surd\) |
\(\surd\) |
\(\surd\) |
19 |
\(\surd\) |
\(\surd\) |
\(\surd\) |
\(\surd\) |
20 |
\(\surd\) |
\(\times\) |
\(\times\) |
\(\surd\) |
总分 |
16 |
16 |
16 |
16 |
通过上述数据,你的直观感受是什么?
我们重新定义一下这个问题。记 \(x_{i,j}\) 为第 \(j\) 个学生在第 \(i\) 道题目的结果,若正确, \(x_{i,j}\) 取值为 \(1\) ;否则为 \(0\) , \(i=1,2,\cdots,20,j=1,2,3,4\) 。
以学生 1 为例,可观测到一组样本
以学生 2 为例,可以观测到另一组样本
这里的 1 或者 0 都是 \(x_{i,j}\) 具体的取值。也就是说,对于学生 \(j\) ,可以得到一组样本 \(\{x_{1,j},x_{2,j},\cdots,x_{20,j}\}\) ,而总分
是样本的统计量。显然,给定样本,我们可以知道统计量的信息(根据样本我们能够计算统计量),但是根据统计量,我们无法得知样本的所有信息(根据总分,我们无法反推出学生 \(j\) 在每道题是否回答正确的结果)。因此,在统计量对样本加工或者简化的过程中,信息被丢失了。
Question
在构建统计量时,哪些信息可以丢失?哪些信息不可以丢失?
在参数模型中,我们使用参数化的概率质量函数或概率密度函数来刻画样本的信息。为了不区分概率质量函数和概率密度函数,我们这里统称为概率函数,记为 \(p(x;\mathbf{\theta})\) ,其中 \(\mathbf{\theta}\) 是未知参数。一旦参数确定,参数模型是唯一确定的。因此,参数模型中的未知参数包含的就是“有用信息”。 如果我们希望统计量不损失信息,本质上就要求了统计量囊括了未知参数的一切信息。
Example 18.2
对于每一个学生,其以一定概率能够回答正确任意一道口算题,假定其总体分布为 \(b(1,p)\) 。每一道口算可以看作独立同分布的样本。于是,样本的符号可记为
其中,这里样本量 \(n\) 取 20。这里用 \(n\) 表示只是为了更一般的情况。
对于样本来说,其联合概率(质量)函数为
这是样本所有的信息,可以看出其依赖于未知参数 \(p\) 。
接下来,我们来考虑统计量
的分布。 根据所学习到的知识, \(T\) 的分布为 \(b(n,p)\) ,其概率(质量)函数为
然后,在已知统计量的分布条件下,我们来考虑样本中剩余信息的分布,这里我们用条件概率(质量)函数来表示,即
我们发现这个条件分布竟然与未知参数 \(p\) 无关,这意味着,这个统计量已经囊括了样本中所有有用的信息,也就是数理统计里所定义的“充分的”。
- 充分统计量
设 \(X \sim F(x;\theta),x_1,\cdots,x_n\) 是来自某个总体的样本,总体分布函数为 \(F(x;\theta)\) ,统计量 \(T=T(x_1,x_2,\cdots,x_n)\) 。 如果在给定 \(T\) 的取值后, \(x_1,x_2,\cdots,x_n\) 的条件分布与 \(\theta\) 无关,则称 \(T\) 为 \(\theta\) 的充分统计量。
接下来,我们来看另一个例子。
Example 18.3
设 \(x_1,x_2,\cdots,x_n\) 是来自正态分布 \(N(\mu,1)\) 的样本, \(T = \bar{x}\) ,则 \(T\) 是充分的。
Proof
我们可知, \(x_1,x_2,\cdots,x_n\) 的联合密度函数为
因为统计量
所以, \(T\) 的密度函数为
根据定义来判断一个统计量是否是充分的,需要考虑一个条件概率(密度)函数,即
我们注意到, \(p(x_1,x_2,\cdots,x_n,t)\) 这是一个退化分布。一旦确定 \(t\) 之后,不是所有的样本都是自由的, \(x_n\) 可以改写成 \(nt - (x_1+\cdots+x_{n-1})\) 。于是,
因此,条件概率函数为
这与参数 \(\mu\) 无关。由此得证。