6.7. 信息量#
在信息论中,由美国克劳德 \(·\) 艾尔伍德 \(·\) 香农(Claude Elwood Shannon)院士提出了一个概念——信息熵,也称为香农熵。对于一个离散的随机变量,其概率分布列
则信息熵的定义为
从形式上来看,信息熵的定义是随机变量 \(X\) 函数的期望。香农熵可以用于度量随机变量的不确定性。而如今,在机器学习中,对于信息熵有更一般的定义。
- 信息熵
对于一个随机变量 \(X\) ,其概率分布列或概率密度函数为 \(p(x)\) ,则称
为信息熵。
Example 6.7
对于一个二点分布随机变量 \(X\) , \(P(X=1)=p\) 。则信息熵为
除了香农熵之外,费歇尔信息量是统计学中一个基本概念。
- 费歇尔信息量
对于一个随机变量 \(X\) ,其概率分布列或概率密度函数为 \(p(x;\theta), \theta \in \Theta\) 满足下列条件:
参数空间 \(\Theta\) 是直线上的一个开区间;
支撑 \(S = \{x:p(x;\theta)>0\}\) 与 \(\theta\) 无关;
导数 \(\frac{\partial }{\partial \theta}p(x;\theta)\) 对一切 \(\theta \in \Theta\) 都存在;
对 \(p(x;\theta)\) ,积分与微分运算可交换次序,即
期望 \(E\left(\frac{\partial }{\partial \theta} \ln p(x;\theta) \right)^2\) 存在;
则称
为随机变量 \(X\) 的费歇尔信息量。
Example 6.8
随机变量 \(X\) 服从泊松分布 \(P(\lambda)\) ,即其分布列为
可验证泊松分布的分布列满足条件。于是,我们可计算
求对数,即
求导数,即
求期望,即
Example 6.9
随机变量 \(X\) 服从指数分布 \(Exp(1/\theta)\) ,即其密度函数为
可验证指数分布的分布列满足条件。于是,我们可计算
求对数,即
求导数,即
求期望,即