1238 字
6 分钟
协方差与相关系数,矩

协方差(Covariance)#

协方差的定义#

对于随机变量 X,YX,Y

Cov(X,Y)=E[(XE[X])(YE[Y])]=E[XYXE[Y]YE[X]+E[X]E[Y]]=E[XY]E[X]E[Y]\begin{align*} \mathrm{Cov}(X,Y) \\ &= \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])]\\ &=\mathbb{E}[XY-X\mathbb{E}[Y]-Y\mathbb{E}[X]+\mathbb{E}[X]\mathbb{E}[Y]]\\ &= \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y] \end{align*}

有由此可以看出单变量的方差其实是协方差的一种特殊情况D(X)=Cov(X,X)\mathbb{D}(X)=\mathrm{Cov}(X,X)

协方差的性质#

  1. 对称性

    Cov(X,Y)=Cov(Y,X)\mathrm{Cov}(X,Y) = \mathrm{Cov}(Y,X)
  2. 独立性的必要条件
    X,YX,Y 独立,则 Cov(X,Y)=0\mathrm{Cov}(X,Y)=0
    (但 Cov(X,Y)=0\mathrm{Cov}(X,Y)=0 不一定独立)。

  3. 计算变量和的方差

    Var(X±Y)=Var(X)+Var(Y)±2Cov(X,Y)\boxed{\mathrm{Var}(X\pm Y) = \mathrm{Var}(X) + \mathrm{Var}(Y) \pm 2\mathrm{Cov}(X,Y)}

    特别地,当 Cov(X,Y)=0\mathrm{Cov}(X,Y)=0 时,X+YX+Y 的方差可以像计算均值那样直接相加。

  4. 随机变量和常数的协方差=0

    Cov(X,c)=0\mathrm{Cov}(X,c)=0
  5. 线性性

    Cov(aX+b,cY+d)=acCov(X,Y)\mathrm{Cov}(aX+b, \, cY+d) = ac \cdot \mathrm{Cov}(X,Y)
  6. 协方差的组合性

    Cov(X1+X2,Y1+Y2)=Cov(X1,Y1)+Cov(X1,Y2)+Cov(X2,Y1)+Cov(X2,Y2)\mathrm{Cov}(X_1+X_2, Y_1+Y_2) = \mathrm{Cov}(X_1,Y_1) + \mathrm{Cov}(X_1,Y_2)+ \mathrm{Cov}(X_2,Y_1) + \mathrm{Cov}(X_2,Y_2)
  7. 方差是协方差的特例
    Var(X)=Cov(X,X)\mathrm{Var}(X) = \mathrm{Cov}(X,X)


相关系数(Correlation Coefficient)#

标准化的协方差定义为:

ρXY=Cov(X,Y)Var(X)Var(Y)\rho_{XY} = \frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}(X)} \cdot \sqrt{\mathrm{Var}(Y)}}
TIP

如果 Cov(X,Y)=0\mathrm{Cov}(X,Y)=0 ,则 ρXY\rho_{XY} 得0。

直观理解:协方差主要用来描述两个变量的相关性,因此符号很重要,但从数值上看,哪怕两个变量的变化趋势(上升或下降)相同,协方差的值也可能会因为其中单个变量的变化幅度而有很大差别。有没有一种方法通过数值来描述相关性呢?我们可以同时除以两个变量的标准差来消除这个影响,就得到了相关系数

相关系数的大小符号都可以反映两随机变量的线性相关性

  • 1ρXY1-1 \leq \rho_{XY} \leq 1 (证明可以用柯西施瓦茨不等式)

  • ρ=0\rho=0:无线性相关 (可能有别的非线性相关性)

  • ρ=1\rho=1:完全正相关     \iff 存在常数 a>0,ba>0,b 使得 Y=aX+bY=aX+b

  • ρ=1\rho=-1:完全负相关     \iff 存在常数 a<0,ba<0,b 使得 Y=aX+bY=aX+b

注意

ρ=0\rho=0Cov(X,Y)=0\mathrm{Cov}(X,Y)=0 并不能推出 X,YX,Y 独立。

独立一定不相关,相关一定不独,反之不一定成立。

当且仅当 X,YX,Y 联合分布是二维正态分布时,不相关才能推出独立。

二维正态分布的相关系数#

对于二维正态分布 N(μX,μY,σX2,σY2,ρ)N(\mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho),其相关系数

ρXY=Cov(X,Y)σXσY=ρ\rho_{XY}=\frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}=\rho

矩:原点矩,中心矩#

原点矩的定义:若 E(Xk)\mathbb{E}(X^k) 存在,则称 E(Xk)\mathbb{E}(X^k) 为随机变量 XXk 阶原点矩,记作 αk=E(Xk)\alpha_k=\mathbb{E}(X^k)

中心矩的定义:若 E[(XE(X))k]\mathbb{E}[(X-\mathbb{E}(X))^k] 存在,则称 E[(XE(X))k]\mathbb{E}[(X-\mathbb{E}(X))^k] 为随机变量 XXk 阶中心矩,记作 βk=E[(XE(X))k]\beta_k=\mathbb{E}[(X-\mathbb{E}(X))^k]

NOTE

注意这里k次方的位置

  • 可以看出,数学期望 E\mathbf{E} 是随机变量的 1 阶原点矩,方差 D\mathbf{D} 是随机变量的 2 阶中心矩。

混合原点矩的定义:设 (X,Y)(X,Y) 是二维随机变量,若 E(XkYl)\mathbb{E}(X^k Y^l) 存在,则称 E(XkYl)\mathbb{E}(X^k Y^l) 为二维随机变量 (X,Y)(X,Y)k+l阶混合原点矩,记作 αk,l=E(XkYl)\alpha_{k,l}=\mathbb{E}(X^k Y^l)

混合中心距的定义:设 (X,Y)(X,Y) 是二维随机变量,若 E[(XE(X))k(YE(Y))l]\mathbb{E}[(X-\mathbb{E}(X))^k (Y-\mathbb{E}(Y))^l] 存在,则称 E[(XE(X))k(YE(Y))l]\mathbb{E}[(X-\mathbb{E}(X))^k (Y-\mathbb{E}(Y))^l] 为二维随机变量 (X,Y)(X,Y)k+l阶混合中心矩,记作 βk,l=E[(XE(X))k(YE(Y))l]\beta_{k,l}=\mathbb{E}[(X-\mathbb{E}(X))^k (Y-\mathbb{E}(Y))^l]

  • 可以看出,协方差 Cov(X,Y)\mathrm{Cov}(X,Y) 是二维随机变量 (X,Y)(X,Y) 的 1+1 阶混合中心矩。

协方差矩阵(了解)(Covariance Matrix)#

TIP

协方差矩阵就是多为随机变量的方差,是一维随机变量方差的推广,从数变成矩阵了。

对于随机向量

X=[X1X2Xn],μ=E[X]=[E[X1]E[X2]E[Xn]]X = \begin{bmatrix} X_1 \\ X_2 \\ \cdots \\ X_n \end{bmatrix}, \quad \mu = \mathbb{E}[X]=\begin{bmatrix} \mathbb{E}[X_1]\\ \mathbb{E}[X_2]\\ \dotsb\\ \mathbb{E}[X_n]\\ \end{bmatrix}

随机向量的协方差用于描述随机向量中每个分量的离散程度(方差)(对角线上)以及不同分量之间的线性相关性(协方差)(非对角线上)。定义为:

Σ=Cov(X)=E[(Xμ)(Xμ)T]\Sigma = \mathrm{Cov}(X) = \mathbb{E}[(X-\mu)(X-\mu)^T]

展开为:

Σ=[Var(X1)Cov(X1,X2)Cov(X1,Xn)Cov(X2,X1)Var(X2)Cov(X2,Xn)Cov(Xn,X1)Cov(Xn,X2)Var(Xn)]\Sigma = \begin{bmatrix} \mathrm{Var}(X_1) & \mathrm{Cov}(X_1,X_2) & \cdots & \mathrm{Cov}(X_1,X_n) \\ \mathrm{Cov}(X_2,X_1) & \mathrm{Var}(X_2) & \cdots & \mathrm{Cov}(X_2,X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \mathrm{Cov}(X_n,X_1) & \mathrm{Cov}(X_n,X_2) & \cdots & \mathrm{Var}(X_n) \end{bmatrix}
推导过程
(Xμ)=[X1E[X1]X2E[X2]X3E[X3]XnE[Xn]](Xμ)(Xμ)T=[(X1E[X1])2(X1E[X1])(X2E[X2])(X1E[X1])(XnE[Xn])(X2E[X1])(X1E[X1])(X2E[X2])2(X1E[X1])(XnE[Xn])(XnE[Xn])(X1E[X1])(XnE[Xn])(X2E[X2])(XnE[Xn])2](X-\mu)=\begin{bmatrix} X_1-\mathbb{E}[X_1]\\ X_2-\mathbb{E}[X_2]\\ X_3-\mathbb{E}[X_3]\\ \dotsb\\ X_n-\mathbb{E}[X_n]\\ \end{bmatrix}\\[5bp] (X-\mu)(X-\mu)^T=\begin{bmatrix} (X_1-\mathbb{E}[X_1])^2 & (X_1-\mathbb{E}[X_1])\cdot(X_2-\mathbb{E}[X_2]) & \dotsb &(X_1-\mathbb{E}[X_1])\cdot(X_n-\mathbb{E}[X_n])\\ (X_2-\mathbb{E}[X_1])(X_1-\mathbb{E}[X_1]) & (X_2-\mathbb{E}[X_2])^2 & \dotsb &(X_1-\mathbb{E}[X_1])\cdot(X_n-\mathbb{E}[X_n])\\ \vdots&\vdots&\ddots&\vdots\\ (X_n-\mathbb{E}[X_n])\cdot(X_1-\mathbb{E}[X_1]) & (X_n-\mathbb{E}[X_n])\cdot(X_2-\mathbb{E}[X_2]) &\dotsb&(X_n-\mathbb{E}[X_n])^2 \end{bmatrix}

矩阵中的每一个元素(i,j)为

(XiE[Xi])(XjE[Xj])(X_i-\mathbb{E}[X_i])\cdot(X_j-\mathbb{E}[X_j])

而期望E\mathbb{E}是线性作用于对象,即对矩阵中的每一个元素取期望

Σij=E[(XiE[Xi])(XjE[Xj])]\Sigma_{ij}=\mathbb{E}[(X_i-\mathbb{E}[X_i])\cdot(X_j-\mathbb{E}[X_j])]

由方差以及协方差的定义式:

对于对角线元素: i=ji=j

E[Σij]=E[(XiE[Xi])2]=Var(Xi)\mathbb{E}[\Sigma_{ij}]=\mathbb{E}[(X_i-\mathbb{E}[X_i])^2]=\mathrm{Var}(X_i)

对于非对角线元素: iji\neq j

E[Σij]=E[(XiE[Xi])(XjE[Xj])]=Cov(Xi,Xj)\mathbb{E}[\Sigma_{ij}]=\mathbb{E}[(X_i-\mathbb{E}[X_i])(X_j-\mathbb{E}[X_j])]=\mathrm{Cov}(X_i,X_j)

当然,也许不必把每个元素都清清楚楚的算出来,Σ=E[XXT]μμT\Sigma=\mathbb{E}[XX^T]-\mu\mu^T 是更简单也更常用的式子。

推导过程
Σ=Cov(X)=E[(Xμ)(Xμ)T]=E[XXTXμTμXT+μμT]E[X]=μ  Σ=E[XXT]μμT\begin{aligned} \Sigma = \mathrm{Cov}(X) &= \mathbb{E}[(X-\mu)(X-\mu)^T]\\ &=\mathbb{E}[XX^T-X\mu^T-\mu X^T+\mu\mu^T]\\ \because \mathbb{E}[X]&=\mu\\ \therefore \;\Sigma&=\mathbb{E}[XX^T]-\mu\mu^T \end{aligned}

性质#

  1. 对称性ΣT=Σ\Sigma^T = \Sigma
  2. 半正定性a,  aTΣa0\forall a, \; a^T \Sigma a \geq 0
  3. 对角元素:为各维的方差
  4. 非对角元素:为各维的协方差
  5. 线性变换下的协方差:若 Y=AX+bY = AX + b,则 Cov(Y)=ACov(X)AT\mathrm{Cov}(Y) = A \, \mathrm{Cov}(X) \, A^T

五、直观例子#

  • XX = 小车位置,YY = 小车速度
  • X,YX,Y 独立:协方差 = 0 → 协方差矩阵是对角的
  • 若速度越大时位置偏离越大:协方差 > 0
  • 若速度越大时位置更接近原点:协方差 < 0

这就是为什么在卡尔曼滤波中,状态协方差矩阵 PP 要随着预测和观测不断更新,它反映了不确定性和相关性。

协方差与相关系数,矩
https://biscuit0613.github.io/posts/possibilitytheory/pt_covariance/
作者
Biscuit
发布于
2025-10-27
许可协议
CC BY-NC-SA 4.0