Processing math: 100%

信息熵

2017年05月23日    Author:Guofei

文章归类: 0x42_概率论    文章编号: 9550


版权声明:本文作者是郭飞。转载随意,但需要标明原文链接,并通知本人
原文链接:https://www.guofei.site/2017/05/23/entropy.html

Edit

信息熵的定义与性质1

信息熵
如果X是离散分布,P(X=xi)=pi,那么信息熵定义为H(X)=ni=1pilogpi

(定义 0log0=0)

性质

  1. 单位是bit(对数底是2)或nat(对数底是e)
  2. 信息熵用来表示随机变量的不确定性,不确定性越大,信息熵越大
  3. 0H(X)logn(用Lagrange证明)

条件熵

条件熵(conditional entropy)
已知X的条件下,Y的不确定性。X对Y的条件分布的熵,对X的数学期望
H(YX)=ni=1P(X=xi)H(YX=xi)

性质:

  1. 等价写法H(YX)=x,yP(x,y)log(P(YX))
  2. H(YX)=H(X,Y)H(X)(用条件熵定义和条件概率定义容易证明)
  3. H(YX)H(Y)(???不会证)

empirical

大部分时候,概率是不知道的,是从数据中估计出来的,用估计出来的概率计算熵时,得到的结果是经验熵或条件经验熵

经验熵(empirical entropy)
计算熵时,用的概率是从数据估计出来的。
条件经验熵(empirical entropy)
计算条件熵时,用的概率是从数据估计出来的

信息益增(information gain)

信息益增(information gain)
得知特征X的信息而使得Y的信息不确定度减少的程度

计算方法:
A分类方法下,数据集D的经验熵变化
g(D,A)=H(D)H(DA)

信息益增比(information gain ratio)

gR(D,A)=g(D,A)H(D)

KL散度

定义为DKL(P∣∣Q)=lnp(x)q(x)dx

参考文献


您的支持将鼓励我继续创作!
WeChatQR AliPayQR qr_wechat