16.5. 常见统计量:次序统计量#
Example 16.1
我们共有 \(n\) 个学生参加本学期的期中考试,记为 \(x_1,x_2,\cdots,x_{n}\) 。常常会对学生的考试成绩进行排名,学生的考试成绩可以按从小到大进行排序,于是可以得到一组有序样本 \(x_{(1)}\leq x_{(2)}\leq \cdots \leq x_{(n)}\) 。我们记 \(y_i = x_{(i)}\) 。易知, \(y_1,y_2,\cdots,y_{n}\) 既不独立也不同分布。
- 次序统计量
设 \(x_1,x_2,\cdots,x_n\) 是来自于总体 \(X\) 的样本, \(x_{(i)}\) 称为样本的第 \(i\) 个次序统计量,它表示将样本观测值从小到大排序后得到的第 \(i\) 个观测值,其中 \(x_{(1)}=\min\{x_1,x_2,\cdots,x_n\}\) 称为该样本的最小次序统计量, \(x_{(n)}=\max\{x_1,x_2,\cdots,x_n\}\) 称为该样本的最大次序统计量, \((x_{(1)},x_{(2)},\cdots,x_{(n)})\) 称为该样本的次序统计量。
Question
如何求 \(x_{(k)}\) 的分布?
如何求 \(x_{(n)} - x_{(1)}\) 的分布?
Theorem 16.2
设总体 \(X\) 的密度函数为 \(p(x)\),分布函数为 \(F(x)\),\(x_1,x_2,\cdots,x_n\) 为样本,则第 \(k\) 个次序统计量 \(x_{(k)}\) 的密度函数为
以下给出两种证明方法。
因为我们需要将 \(x_{(k)}\) 看成一个随机变量,所以记 \(X_{(k)}\) 为第 \(k\) 个次序统计量。 首先考虑 \(X_{(k)}\) 的分布函数 \(F_{k}(x) = P(X_{(k)}\leq x)\) 。注意到事件
所以,
根据引理 2.1,我们可知
于是,定理得证。
Lemma 16.1
对于 \(0<p<1\) ,有
Proof
令
于是,关于 \(g(p)\) 对 \(p\) 求导,即
注意到,第 \(k\) 项为
而第 \(k+1\) 项为
同时,
所以,进行前后消除,我们有
我们可以验证其初始值相等即可。
对任意的实数 \(x\) ,考虑次序统计两个 \(x_{(k)}\) 取值落在小区间 \((x,x+\Delta x]\) 内这一事件,它等价于“样本量 \(n\) 的样本中有 1 个观测值落在 \((x,x+\Delta x]\) 之间(多于一个观测值落在区间) \((x,x+\Delta x]\) 的概率是 \(\Delta x\) 的高阶无穷小量,后同),而有 \(k-1\) 个观测值小于等于 \(x\) ,有 \(n-k\) 个观测值大于 \(x+\Delta x\) ”。
样本的每一个分量小于等于 \(x\) 的概率是 \(F(x)\) ,落入区间 \((x,x+\Delta x]\) 的概率为 \(F(x+\Delta x)-F(x)\) ,大于 \(x+\Delta x\) 的概率为 \(1-F(x+\Delta x)\) ,而将 \(n\) 个分量分成这样的三组,总的分法有 \(\frac{n!}{(k-1)!11!(n-k)!}\) 种。于是,若以 \(F_k(x)\) 记 \(x_{(k)}\) 的分布函数,则由多项式分布可得
两边除以 \(\Delta x\) ,并令 \(\Delta x \rightarrow 0\) ,即有
其中 \(p_k(x)\) 的非零区间与总体的非零区间相同。
Theorem 16.3
对于统计量 \((x_{(i)},x_{(j)})(i<j)\) 得联合分布密度函数为
Proof
对增量 \(\Delta y, \Delta z\) 以及 \(y<z\) ,事件 \(\{x_{(i)} \in (y,y+\Delta y], x_{(j)} \in (z , z+\Delta z]\}\) 可以表述为“样本量为 \(n\) 的样本 \(x_1,x_2,\cdots,x_n\) 中有 \(i-1\) 个观测值小于等于 \(y\) ,一个落入区间 \((y,y+\Delta y]\) , \(j-i-1\) 个落入区间 \((y+\Delta y, z]\) , 一个落入区间 \((z,z+\Delta z]\) ,而余下 \(n-j\) 个大于 \(z+\Delta z\) ”。 于是由多项式分布可得
考虑到 \(F(x)\) 的连续性,当 \(\Delta y \rightarrow 0, \Delta z \rightarrow 0\) 时,有 \(F(y+\Delta y) \rightarrow F(y),F(z+\Delta z) \rightarrow F(z)\) ,于是
Example 16.2
设总体分布为 \(U(0,1)\) , \(x_1,x_2,\cdots,x_n\) 为其样本,则
\(x_{(k)}\) 的分布是 \(Be(k,n-k+1)\) .
因为 \(x_i\) 的分布函数为
所以, \(x_{(k)}\) 的密度函数为
\((x_{(k)},x_{(s)})\) 的联合密度函数为
若 \(Y=x_{(s)}-x_{(k)}\) 。令 \(U=x_{(k)}\) 。则 \(Y\) 的密度函数为
因此, \(Y\) 的分布是 \(Be(s-k,n-s+k+1)\) 。
Remark
均匀分布的次序统计量是贝塔分布的来源之一。
经验分布函数是次序统计量的函数,即
样本分位数也是基于次序统计量而定义。
16.5.1. 样本分位数#
- 中位数
\(m_{0.5}\) 定义如下:
称 \(m_{0.5}\) 为中位数。
- 样本 \(p\) 分位数
\(m_{p}\) 定义如下:
称 \(m_{p}\) 为样本 \(p\) 分位数。
对于样本分位数,我们也有相应的渐近分布,如下定理,供学生进行选修。
Theorem 16.4
设总体密度函数为 \(p(x)\) , \(x_p\) 为其 \(p\) 分位数, \(p(x)\) 在 \(x_p\) 处连续且 \(p(x_p)>0\) ,则当 \(n\rightarrow \infty\) 时,样本 \(p\) 分位数 \(m_p\) 的渐近分布为
特别地,对于样本中位数,当 \(n\rightarrow \infty\) 时近似地有