首页 - 币安app > 互信息公式推导(互信息计算公式)

互信息公式推导(互信息计算公式)

发布于:2022-12-18 作者:沫沫 阅读:19

今天给各位分享互信息公式推导的知识,其中也会对互信息计算公式进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

如何理解互信息公式的含义

互信息指的是两个随机变量之间的关联程度,即给定一个随机变量后,另一个随机变量不确定性的削弱程度,因而互信息取值最小为0,意味着给定一个随机变量对确定一另一个随机变量没有关系,最大取值为随机变量的熵,意味着给定一个随机变量,能完全消除另一个随机变量的不确定性

信息论中,平均互信息的推导步骤疑问求解

不一定的,互信息和熵不同,没有具体的界限,可以大于1,甚至可以小于0。要说和1的关系,一种情况是在只考虑两个变量x,y的互信息,且x,y为二元变量时,I(x,y)=max(H(x),H(y))=1

如何计算熵,条件熵和互信息 - 信息论基础

需要基础:概率论,数学基础

谈到通信中的两个问题:

单个随机变量的熵为该随机变量的不确定度。(编码中多少位bit可以完整表述随机变量X)

a. 均匀分布,编码方式为最简单的,一种编码对应一种可能。

公式可以学成 H(X) = log N

b. 概率非均匀分布,概率大的编码比特数越小。ps:用于决策树定根节点。

公式跟以上一样,概率换为联合概率

定义两个随机变量的条件熵H(X|Y),即一个随机变量在给定另一个随机变量的条件下的熵。 由另一随机变量导致的原随机变量不确定度的缩减量称为互信息。(是不是很难记,其实我从没记过,看图..)

毕业后才发现学习速度要比读书时更快...

以上截图来源网络,但是我有正版教科书(纸质版),衷心希望所有文件都能出电子版。

上课又用到了 2018.8.1

信息熵、条件熵、联合熵、互信息、相对熵、交叉熵

信息量是通过概率来定义的:如果一件事情的概率很低,那么它的信息量就很大;反之,如果一件事情的概率很高,它的信息量就很低。简而言之,概率小的事件信息量大,因此信息量可以定义如下:

下面解释为什么要取倒数再去对数。

(1)先取倒数: 这件事表示:“信息量”和“概率”呈反比;

(2)在取对数: 取对数是为了将区间 映射到 。

再总结一下:

信息熵是信息量的数学期望。理解了信息量,信息熵的定义式便不难理解。定义如下:

条件熵的定义为:在 给定的条件下, 的条件概率分布的熵对 的数学期望。

条件熵一定要记住下面的这个定义式,其它的式子都可以由信息熵和条件熵的定义式得出。

理解条件熵可以使用决策树进行特征选择的例子:我们期望选择的特征要能将数据的标签尽可能分得比较“纯”一些,特征将数据的标签分得“纯”,则熵就小,信息增益就大。

因为 ,条件熵可以变形成如下:

说明:有些教材直接把最后一步

定义成条件熵,其实是一个意思,我个人觉得

这种定义式更好理解,而这个定义式可以参考李航《统计学习方法》P61 ,并不难记忆,其实条件熵就是“被特征分割以后的信息熵的加权平均”。

两个变量 和 的联合熵的表达式:

根据信息熵、条件熵的定义式,可以计算信息熵与条件熵之差:

同理

因此:

定义互信息:

即:

互信息也被称为信息增益。用下面这张图很容易明白他们的关系。

信息熵:左边的椭圆代表 ,右边的椭圆代表 。

互信息(信息增益):是信息熵的交集,即中间重合的部分就是 。

联合熵:是信息熵的并集,两个椭圆的并就是 。

条件熵:是差集。左边的椭圆去掉重合部分就是 ,右边的椭圆去掉重合部分就是 。

还可以看出:

相对熵又称 KL 散度,如果我们对于同一个随机变量 有两个单独的概率分布 和 ,使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异。差异越大则相对熵越大,差异越小则相对熵越小。

计算公式如下:

如何记忆:如果用 来描述样本,那么就非常完美(因为 认为是真实的情况)。而用 来描述样本,虽然可以大致描述,但是不是那么的完美,信息量不足,需要额外的一些“信息增量”才能达到和 一样完美的描述。如果我们的 通过反复训练,也能完美的描述样本,那么就不再需要额外的“信息增量”, 等价于 。 即 和 的分布完全一致的时候,KL 散度的值等于 。

我是这样记忆交叉熵的定义的,通过逻辑回归的损失函数记忆交叉熵。 认为是类标,是独热编码(也可以认为是概率分布),而 认为是逻辑回归预测的概率分布。

结论:KL 散度 = 交叉熵 - 熵 。这一点从相对熵的定义式就可以导出。

这里

就是交叉熵的定义式。

1、一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉

地址:

2、机器学习各种熵:从入门到全面掌握

地址:

3、信息增益(互信息)非负性证明

地址:

4、如何通俗的解释交叉熵与相对熵?

地址:

5、相对熵(KL散度)

地址:

6、KL(kullback-Leibler-devergence)散度(相对熵)非负性

地址:

7、简单的交叉熵,你真的懂了吗?

(本节完)

什么是点互信息

机器学习相关文献里面,经常会用到PMI(Pointwise Mutual Information)这个指标来衡量两个事物之间的相关性(比如两个词)。其原理很简单,公式如下:

在概率论中,我们知道,如果x跟y不相关,则p(x,y)=p(x)p(y)。二者相关性越大,则p(x,y)就相比于p(x)p(y)越大。用后面的式子可能更好理解,在y出现的情况下x出现的条件概率p(x|y)除以x本身出现的概率p(x),自然就表示x跟y的相关程度。

这里的log来自于信息论的理论,可以简单理解为,当对p(x)取log之后就将一个概率转换为了信息量(要再乘以-1将其变为正数),以2为底时可以简单理解为用多少个bits可以表示这个变量。

至此,概念介绍完了,后面是例子和相关背景,不感兴趣的话就可以不用看了。

例子

举个自然语言处理中的例子来说,我们想衡量like这个词的极性(正向情感还是负向情感)。我们可以预先挑选一些正向情感的词,比如good。然后我们算like跟good的PMI,即:

PMI(like,good)=logp(like,good)p(like)p(good)

其中p(like)是like在语料库中出现的概率(出现次数除以总词数N),p(like,good)表示like跟good在一句话中同时出现的概率(like跟good同时出现的次数除以N2)。

PMI(like,good)越大表示like的正向情感倾向就越明显。

互信息(Mutual Information)

点互信息PMI其实就是从信息论里面的互信息这个概念里面衍生出来的。

互信息即:

其衡量的是两个随机变量之间的相关性,即一个随机变量中包含的关于另一个随机变量的信息量。所谓的随机变量,即随机试验结果的量的表示,可以简单理解为按照一个概率分布进行取值的变量,比如随机抽查的一个人的身高就是一个随机变量。

可以看出,互信息其实就是对X和Y的所有可能的取值情况的点互信息PMI的加权和。因此,点互信息这个名字还是很形象的。

举个栗子

The following table shows counts of pairs of words getting the most and the least PMI scores in the first 50 millions of words in Wikipedia (dump of October 2015) filtering by 1,000 or more co-occurrences. The frequency of each count can be obtained by dividing its value by 50,000,952. (Note: natural log is used to calculate the PMI values in this example, instead of log base 2)

互信息公式推导的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于互信息计算公式、互信息公式推导的信息别忘了在本站进行查找喔。

二维码

扫一扫关注我们

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件至举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签: #互信息公式推导

相关文章

发表评论