协方差(Covariance)#
协方差的定义#
对于随机变量 X,Y:
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY−XE[Y]−YE[X]+E[X]E[Y]]=E[XY]−E[X]E[Y]有由此可以看出单变量的方差其实是协方差的一种特殊情况D(X)=Cov(X,X)
协方差的性质#
-
对称性
Cov(X,Y)=Cov(Y,X)
-
独立性的必要条件
若 X,Y 独立,则 Cov(X,Y)=0。
(但 Cov(X,Y)=0 不一定独立)。
-
计算变量和的方差
Var(X±Y)=Var(X)+Var(Y)±2Cov(X,Y)
特别地,当 Cov(X,Y)=0 时,X+Y 的方差可以像计算均值那样直接相加。
-
随机变量和常数的协方差=0
Cov(X,c)=0
-
线性性
Cov(aX+b,cY+d)=ac⋅Cov(X,Y)
-
协方差的组合性
Cov(X1+X2,Y1+Y2)=Cov(X1,Y1)+Cov(X1,Y2)+Cov(X2,Y1)+Cov(X2,Y2)
-
方差是协方差的特例
Var(X)=Cov(X,X)。
相关系数(Correlation Coefficient)#
标准化的协方差定义为:
ρXY=Var(X)⋅Var(Y)Cov(X,Y)TIP如果 Cov(X,Y)=0 ,则 ρXY 得0。
直观理解:协方差主要用来描述两个变量的相关性,因此符号很重要,但从数值上看,哪怕两个变量的变化趋势(上升或下降)相同,协方差的值也可能会因为其中单个变量的变化幅度而有很大差别。有没有一种方法通过数值来描述相关性呢?我们可以同时除以两个变量的标准差来消除这个影响,就得到了相关系数
相关系数的大小和符号都可以反映两随机变量的线性相关性
-
−1≤ρXY≤1 (证明可以用柯西施瓦茨不等式)
-
ρ=0:无线性相关 (可能有别的非线性相关性)
-
ρ=1:完全正相关 ⟺ 存在常数 a>0,b 使得 Y=aX+b
-
ρ=−1:完全负相关 ⟺ 存在常数 a<0,b 使得 Y=aX+b
注意
ρ=0 或 Cov(X,Y)=0 并不能推出 X,Y 独立。
独立一定不相关,相关一定不独,反之不一定成立。
当且仅当 X,Y 联合分布是二维正态分布时,不相关才能推出独立。
二维正态分布的相关系数#
对于二维正态分布 N(μX,μY,σX2,σY2,ρ),其相关系数
ρXY=σXσYCov(X,Y)=ρ
矩:原点矩,中心矩#
原点矩的定义:若 E(Xk) 存在,则称 E(Xk) 为随机变量 X 的 k 阶原点矩,记作 αk=E(Xk)
中心矩的定义:若 E[(X−E(X))k] 存在,则称 E[(X−E(X))k] 为随机变量 X 的 k 阶中心矩,记作 βk=E[(X−E(X))k]
NOTE注意这里k次方的位置
- 可以看出,数学期望 E 是随机变量的 1 阶原点矩,方差 D 是随机变量的 2 阶中心矩。
混合原点矩的定义:设 (X,Y) 是二维随机变量,若 E(XkYl) 存在,则称 E(XkYl) 为二维随机变量 (X,Y) 的 k+l阶混合原点矩,记作 αk,l=E(XkYl)
混合中心距的定义:设 (X,Y) 是二维随机变量,若 E[(X−E(X))k(Y−E(Y))l] 存在,则称 E[(X−E(X))k(Y−E(Y))l] 为二维随机变量 (X,Y) 的 k+l阶混合中心矩,记作 βk,l=E[(X−E(X))k(Y−E(Y))l]
- 可以看出,协方差 Cov(X,Y) 是二维随机变量 (X,Y) 的 1+1 阶混合中心矩。
协方差矩阵(了解)(Covariance Matrix)#
TIP协方差矩阵就是多为随机变量的方差,是一维随机变量方差的推广,从数变成矩阵了。
对于随机向量
X=X1X2⋯Xn,μ=E[X]=E[X1]E[X2]⋯E[Xn]随机向量的协方差用于描述随机向量中每个分量的离散程度(方差)(对角线上)以及不同分量之间的线性相关性(协方差)(非对角线上)。定义为:
Σ=Cov(X)=E[(X−μ)(X−μ)T]展开为:
Σ=Var(X1)Cov(X2,X1)⋮Cov(Xn,X1)Cov(X1,X2)Var(X2)⋮Cov(Xn,X2)⋯⋯⋱⋯Cov(X1,Xn)Cov(X2,Xn)⋮Var(Xn)推导过程
(X−μ)=X1−E[X1]X2−E[X2]X3−E[X3]⋯Xn−E[Xn](X−μ)(X−μ)T=(X1−E[X1])2(X2−E[X1])(X1−E[X1])⋮(Xn−E[Xn])⋅(X1−E[X1])(X1−E[X1])⋅(X2−E[X2])(X2−E[X2])2⋮(Xn−E[Xn])⋅(X2−E[X2])⋯⋯⋱⋯(X1−E[X1])⋅(Xn−E[Xn])(X1−E[X1])⋅(Xn−E[Xn])⋮(Xn−E[Xn])2矩阵中的每一个元素(i,j)为
(Xi−E[Xi])⋅(Xj−E[Xj])而期望E是线性作用于对象,即对矩阵中的每一个元素取期望
Σij=E[(Xi−E[Xi])⋅(Xj−E[Xj])]由方差以及协方差的定义式:
对于对角线元素: i=j
E[Σij]=E[(Xi−E[Xi])2]=Var(Xi)对于非对角线元素: i=j
E[Σij]=E[(Xi−E[Xi])(Xj−E[Xj])]=Cov(Xi,Xj)
当然,也许不必把每个元素都清清楚楚的算出来,Σ=E[XXT]−μμT 是更简单也更常用的式子。
推导过程
Σ=Cov(X)∵E[X]∴Σ=E[(X−μ)(X−μ)T]=E[XXT−XμT−μXT+μμT]=μ=E[XXT]−μμT
- 对称性:ΣT=Σ
- 半正定性:∀a,aTΣa≥0
- 对角元素:为各维的方差
- 非对角元素:为各维的协方差
- 线性变换下的协方差:若 Y=AX+b,则
Cov(Y)=ACov(X)AT
五、直观例子#
- X = 小车位置,Y = 小车速度
- 若 X,Y 独立:协方差 = 0 → 协方差矩阵是对角的
- 若速度越大时位置偏离越大:协方差 > 0
- 若速度越大时位置更接近原点:协方差 < 0
这就是为什么在卡尔曼滤波中,状态协方差矩阵 P 要随着预测和观测不断更新,它反映了不确定性和相关性。