868 字
4 分钟
自信息量与信息熵
2026-04-23
无标签

香农信息#

信息是用来消除不确定性的东西。

对于一个随机事件 xx ,用 xx 发生的概率 P(x)P(x) 来衡量这个事件所包含的信息量

  • 事件发生的概率越小,包含的信息量就越大。
  • 事件发生的概率越大,包含的信息量就越小。

自信息量的定义#

定义随机事件的自信息量(self-information)为:

I(x)=f(P(x))I(x) = f(P(x))

其中 ff 应当满足

  1. ff 是一个单调递减函数:当 P(x)P(x) 增大时,I(x)I(x) 减小。
  2. P(x)=1P(x) = 1 时,I(x)=0I(x) = 0:当事件确定发生时,不包含任何信息。
  3. P(x)=0P(x) = 0 时,I(x)=+I(x) = +\infty:当事件不可能发生时,包含无限信息。
  4. 满足可加性:对于两个独立事件 xxyy,它们的联合事件 x,yx, y 的信息量应该等于它们各自信息量的和,即 I(x,y)=I(x)+I(y)I(x, y) = I(x) + I(y)

满足上述条件的函数是 I(x)=logP(x)I(x) = -\log P(x),因此我们定义随机事件 xx 的信息量为:

I(x)=log?P(x)I(x) = -\log_{?} P(x)

其中底数 ?? 可以是 2(比特bit)、自然对数 ee(纳特nat)或 10(哈特莱hartley),根据具体应用场景选择。

其推广到联合事件 x,yx, y

联合自信息量定义为:

I(xy)=logP(x,y)I(xy) = -\log P(x, y)

条件自信息量定义为:

I(xy)=logP(xy)I(x|y) = -\log P(x|y)

其中,条件自信息,联合自信息与自信息量之间满足以下关系:

I(xy)=I(x)+I(yx)=I(y)+I(xy)I(xy) = I(x) + I(y|x) = I(y) + I(x|y)

用概率的乘法定律 P(x,y)=P(x)P(yx)=P(y)P(xy)P(x, y) = P(x) P(y|x) = P(y) P(x|y) 可以验证上述关系。

信息熵#

信息熵(entropy)是一个随机变量的不确定性的度量。对于一个离散随机变量 XX,其信息熵定义为:

H(X)=E[I(X)]=xP(x)logP(x)H(X) =\mathbb{E}[I(X)] = -\sum_{x} P(x) \log P(x)

说明:信息熵是随机变量所有可能结果的自信息量期望值

类比自信息量,这个也有联合熵和条件熵:

联合熵定义为:

H(X,Y)=E[I(x,y)]=x,yP(x,y)logP(x,y)H(X, Y) =\mathbb{E}[I(x, y)] = -\sum_{x, y} P(x, y) \log P(x, y)

条件熵定义为:(一般情况下 H(XY)H(YX)H(X|Y) \neq H(Y|X))

H(XY)=E[I(xy)]=xX,yYP(x,y)logP(xy)H(X|Y) =\mathbb{E}[I(x|y)] =-\sum_{x\in X, y\in Y} P(x, y) \log P(x|y)

满足以下关系:(熵的链式法则)

对于一般有关系的随机变量 XXYY,它们的联合熵满足以下关系:

H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)H(X, Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)

当且仅当 XXYY 独立时,条件熵等于各自的熵,即 H(YX)=H(Y)H(Y|X) = H(Y)H(XY)=H(X)H(X|Y) = H(X),此时联合熵满足:

H(X,Y)=H(X)+H(Y)H(X, Y) = H(X) + H(Y)

关于这几个量的关系:

alt text

离散信源的最大熵定理#

定理:对于一个离散随机变量 XX,当且仅当 XX 服从均匀分布时,其信息熵达到最大值。

也就是各随机事件发生的概率相等时,随机变量的不确定性最大,信息熵也最大。对于一个具有 nn 个可能取值的离散随机变量 XX,当 P(xi)=1nP(x_i) = \frac{1}{n} 对所有 ii 成立时,信息熵达到最大值。

证明:利用拉格朗日乘数法求解以下优化问题:

数学建模如下:

maxH(X)=i=1nP(xi)logP(xi)s.t.i=1nP(xi)=1L(P(x1),,P(xn),λ)=i=1nP(xi)logP(xi)+λ(i=1nP(xi)1)对参数求偏导LP(xi)=logP(xi)1+λ=0P(xi)=eλ1对所有 i利用约束条件求解 λi=1nP(xi)=neλ1=1eλ1=1nP(xi)=1n对所有 i\max H(X) = -\sum_{i=1}^{n} P(x_i) \log P(x_i) \quad \text{s.t.} \quad \sum_{i=1}^{n} P(x_i) = 1\\ \mathcal{L}(P(x_1), \ldots, P(x_n), \lambda) = -\sum_{i=1}^{n} P(x_i) \log P(x_i) + \lambda \left( \sum_{i=1}^{n} P(x_i) - 1 \right)\\ \text{对参数求偏导}\\ \frac{\partial \mathcal{L}}{\partial P(x_i)} = -\log P(x_i) - 1 + \lambda = 0 \quad \Rightarrow \quad P(x_i) = e^{\lambda - 1} \quad \text{对所有 } i \\ \text{利用约束条件求解 } \lambda \\ \sum_{i=1}^{n} P(x_i) = n e^{\lambda - 1} = 1 \quad \Rightarrow \quad e^{\lambda - 1} = \frac{1}{n} \quad \Rightarrow \quad P(x_i) = \frac{1}{n} \quad \text{对所有 } i
自信息量与信息熵
https://biscuit0613.github.io/posts/infotheory/information/
作者
Biscuit
发布于
2026-04-23
许可协议
CC BY-NC-SA 4.0