信息熵的定义与性质1
- 信息熵
- 如果X是离散分布,P(X=xi)=pi,那么信息熵定义为H(X)=−n∑i=1pilogpi
(定义 0log0=0)
性质
- 单位是bit(对数底是2)或nat(对数底是e)
- 信息熵用来表示随机变量的不确定性,不确定性越大,信息熵越大
- 0≤H(X)≤logn(用Lagrange证明)
条件熵
- 条件熵(conditional entropy)
- 已知X的条件下,Y的不确定性。X对Y的条件分布的熵,对X的数学期望
H(Y∣X)=n∑i=1P(X=xi)H(Y∣X=xi)
性质:
- 等价写法H(Y∣X)=−∑x,yP(x,y)log(P(Y∣X))
- H(Y∣X)=H(X,Y)−H(X)(用条件熵定义和条件概率定义容易证明)
- H(Y∣X)≤H(Y)(???不会证)
empirical
大部分时候,概率是不知道的,是从数据中估计出来的,用估计出来的概率计算熵时,得到的结果是经验熵或条件经验熵
- 经验熵(empirical entropy)
- 计算熵时,用的概率是从数据估计出来的。
- 条件经验熵(empirical entropy)
- 计算条件熵时,用的概率是从数据估计出来的
信息益增(information gain)
- 信息益增(information gain)
- 得知特征X的信息而使得Y的信息不确定度减少的程度
计算方法:
A分类方法下,数据集D的经验熵变化
g(D,A)=H(D)−H(D∣A)
信息益增比(information gain ratio)
gR(D,A)=g(D,A)H(D)
KL散度
定义为DKL(P∣∣Q)=∫∞−∞lnp(x)q(x)dx