9.3. 协方差与相关系数#
9.3.1. 协方差#
在考虑多个随机变量时,每一个随机变量的期望与方差是我们关注的特征数之外,两个随机变量之间的关系也是我们关心的一个特征数。以下我们介绍特征数——协方差。
- 协方差
设 \((X,Y)\) 是一个二维随机变量,若
存在,则称其为 \(X\) 与 \(Y\) 的协方差或相关(中心)矩,并记为 \(\text{Cov}(X,Y)=E\left ( (X-E(X))(Y-E(Y)) \right)\)
Remark
特别地, \(\text{Cov}(X,X)=\text{Var}(X)\) ;
通过协方差可以判断两个随机变量之间的关系,即
\(\text{Cov}(X,Y)>0\) 时,称 \(X\) 与 \(Y\) 正相关
\(\text{Cov}(X,Y)<0\) 时,称 \(X\) 与 \(Y\) 负相关
\(\text{Cov}(X,Y)=0\) 时,称 \(X\) 与 \(Y\) 不相关(毫无关联/非线性关系)
以下介绍协方差的一些性质。
Property 9.2
\(\text{Cov}(X,Y)=E(XY)-E(X)E(Y)\) ;
\(X\) 与 \(Y\) 独立 \(\Rightarrow \text{Cov}(X,Y)=0\) ,反之不然。
Remark
令 \(X\sim N(0,\sigma^{2}),Y=X^{2}\) 。我们可以计算
\(\text{Var}(X \pm Y)= \text{Var}(X)+\text{Var}(Y) \pm 2\text{Cov}(X, Y)\) 。
Remark
对任意 \(n\) 个随机变量 \(X_{1},X_{2},\cdots,X_{n}\) ,有
若 \(X\) 与 \(Y\) 不相关,则
协方差的计算与次序无关,即 \(\text{Cov}(X,Y)=\text{Cov}(Y,X)\) 。
任意随机变量 \(X\) 与常数 \(a\) 的协方差为零,即 \(\text{Cov}(X,a)=0\) 。
对任意常数 \(a,b\) ,有 \(\text{Cov}(aX,bY)=ab\cdot \text{Cov}(X,Y)\) 。
对于任意三个随机变量 \(X,Y,Z\) ,有
9.3.2. 相关系数#
- 相关系数
设 \((X,Y)\) 是一个二维随机变量,且 \(\text{Var}(X)=\sigma _{X} ^{2} >0, \text{Var}(Y)=\sigma _{Y} ^{2} >0\) ,则称
为 \(X\) 与 \(Y\) 的(线性)相关系数。
Remark
从另一个角度来看相关系数,令 \(E(X) = \mu_X\) , \(E(Y) = \mu_Y\) 。将原始的随机变量进行标准化,即
经过标准化后的两个随机变量的协方差为
Example 9.3
证明二维正态分布 \(\left(\mu_{X}, \mu_{Y}, \sigma_{X}^{2}, \sigma_{Y}^{2}, \rho\right)\) 的相关系数为 \(\rho\) 。
Solution
首先,计算协方差
令
则
注意到
则
Theorem 9.3 (Schwarz 不等式)
对任意二维随机变量 \((X,Y)\) ,若 \(X\) 与 \(Y\) 的方差都存在,且记 \(\sigma_{X}^{2}=\text{Var}(X),\sigma_{Y}^{2}=\text{Var}(Y)\) ,则有
Proof
不妨设 \(\sigma_{X}^{2}>0\) ,设函数
因为 \(g(t)\) 是一个非负随机变量的期望,所以, \(g(t)\) 恒非负。而且,这个二次函数的开口向上,其只有一个或零个零根。所以,其判别式小于或等于零,即
也就是说,
Property 9.3
\(\left | \text{Corr}(X,Y) \right | \le1\) ;
\(\text{Corr}(X,Y)=\pm1\Leftrightarrow X\) 与 \(Y\) 之间几乎处处有线性关系,即存在 \(a \neq0\) 与 \(b\) ,使得
其中,当 \(\text{Corr}(X,Y)=1\) 时,有 \(a>0\) ;当 \(\text{Corr}(X,Y)=-1\) 时,有 \(a<0\) 。
Remark
\(\text{Corr}(X,Y)=0\) ,则称 \(X\) 与 \(Y\) 不相关;
\(\text{Corr}(X,Y)=+1\) ,则称 \(X\) 与 \(Y\) 完全正相关;
\(\text{Corr}(X,Y)=-1\) ,则称 \(X\) 与 \(Y\) 完全负相关;
\(0<\left | \text{Corr}(X,Y) \right | <1\) ,则称 \(X\) 与 \(Y\) 有“一定程度”的线性关系。
在二维正态分布 \(N\left(\mu_{X}, \mu_{Y}, \sigma_{X}^{2}, \sigma_{Y}^{2}, \rho\right)\) 场合,不相关与独立是等价的。