372 字
2 分钟
互信息量和互信息
2026-04-22
无标签

互信息量的定义#

一句话:互信息量(Transinformation)看事件y能够削减掉事件x的不确定性有多少。

互信息量定义为:

I(x;y)=I(x)I(xy)I(x; y) = I(x) - I(x|y)

互信息量=原有不确定性-剩余不确定性

继续化简定义式:

I(x;y)=I(x)I(xy)=logP(x)+logP(xy)=logP(xy)P(x)=logP(x,y)P(x)P(y)=logP(x)logP(y)+logP(x,y)=I(x)+I(y)I(xy)I(x; y) = I(x) - I(x|y) = -\log P(x) + \log P(x|y) = \log \frac{P(x|y)}{P(x)}\\ = \log \frac{P(x, y)}{P(x) P(y)}=-\log P(x) - \log P(y) + \log P(x, y) \\ = I(x) + I(y) - I(xy)

类似自信息量,定义条件互信息量:

I(x;yz)=I(xz)I(xyz)=logP(xz)+logP(xyz)=logP(xyz)P(xz)=logP(x,yz)P(xz)P(yz)=I(xz)+I(yz)I(xyz)I(x; y|z) = I(x|z) - I(x|yz)= -\log P(x|z) + \log P(x|yz) = \log \frac{P(x|yz)}{P(x|z)} = \log \frac{P(x, y|z)}{P(x|z) P(y|z)} = I(x|z) + I(y|z) - I(xy|z)

互信息量的性质#

  • 互信息量是对称的:I(x;y)=I(y;x)I(x; y) = I(y; x)。即由事件 xx 提供的信息量与由事件 yy 提供的信息量是相同的。

  • 上界:互信息量的最大值为 I(x;y)min(I(x),I(y))I(x; y) \leq \min(I(x), I(y))。当 xxyy 完全相关时,互信息量达到最大值。从一个事件所提取的另一个事件的信息量不可能超过另一个事件本身包含的信息量。

  • 可正可负:互信息量可以是正数、零或负数。取决于概率比值和1

互信息#

互信息(mutual information)是互信息量期望值。它衡量了两个随机变量之间的依赖关系。

I(X;Y)=EI(x;y)=xXyYP(x,y)logP(x,y)P(x)P(y)I(X; Y) =\mathbb{E}I(x;y) = \sum_{x \in X} \sum_{y \in Y} P(x, y) \log \frac{P(x, y)}{P(x) P(y)}

XXYY 是独立的,则 P(x,y)=P(x)P(y)P(x, y) = P(x) P(y),互信息为零,说明两个变量之间没有任何依赖关系。

互信息量和互信息
https://biscuit0613.github.io/posts/infotheory/transinformation/
作者
Biscuit
发布于
2026-04-22
许可协议
CC BY-NC-SA 4.0