样本

15.3. 样本#

Example 15.2 (总统选举 - 续)

在唱票之前,我们可以采访部分投票公民,从而得知他们的投票结果。假设共采访了 \(n\) 位公民,得到了他们的投票结果,记为 \(x_1,x_2,\cdots,x_n\) 。在统计学中,称 \(x_1,x_2,\cdots,x_n\)样本,也是我们所观测到的数据。

Remark

一方面,样本既表示从总体中随机抽取的,抽取前无法预知其取值,所以,样本是随机变量;另一方面,样本在抽取以后经观测就有确定的观测值,所以,样本又是一组数值。这就是样本所谓的两重性。

这两重性质是同等重要的。在数据分析中,需要得到具体的结果并进行合理的结论,主要依赖于样本的可观测性;而如何进行分析,需要事先确定数据分析的方法,这主要依赖于样本的随机性。

Question

怎样的样本才能够帮助我们研究总体?

Example 15.3 (总统选举 - 续)

假定在乌托邦里有两个城镇: \(T_1,T_2\) ,两个城镇里各有 10 个百姓。通过唱票结果发现:因为候选人 \(A\) 来自于城镇 \(T_1\) ,他们中有 7 名会为候选人 \(A\) 投票,剩下的投票给了候选人 \(B\) ;而候选人 \(B\) 来自于城镇 \(T_2\) ,他们中 9 人会为 \(B\) 投票,只有 1 人投票给了 \(A\) 。如果我们只调研城镇 \(T_1\) 的公民,很自然会认为 \(A\) 当选,但实际结果相反。

虽然从总体中抽取样本有不同的抽法,但是我们希望能够通过样本来对总体作出较为可靠的推断,我们希望所抽出的样本能够很好地代表总体。需要对样本提出以下两个要求:

  • 代表性:要求总体中每一个个体都有同等机会被选入样本,这表示每一个样本 \(x_i\) 与总体 \(X\) 具有相同的分布。

  • 独立性:要求样本中每一个的取值不影响其他取值,这表示 \(x_1,x_2,\cdots,x_n\) 相互独立。

这就是我们常说的“简单随机抽样”。 由此,我们常常会这样描述一个统计问题。设总体 \(X\) 具有分布函数 \(F(x)\)\(x_1,x_2,\cdots,x_n\) 为取自该总体的容量为 \(n\) 的样本,则样本的联合分布函数为

\[ F(x_1,x_2,\cdots,x_n) = \prod_{i=1}^n F(x_i). \]