迹(Trace) 表示矩阵的能量。
只有方阵才有迹。对于一个 n×n 的矩阵 A=[aij],它的迹定义为主对角线元素的和,是一个标量:
tr(A)=a11+a22+⋯+ann=i=1∑naii
迹的性质#
假设 A 和 B 是 n×n 的矩阵,c 是一个标量,那么迹满足以下性质:
-
线性:tr(A+B)=tr(A)+tr(B) 和 tr(cA)=c⋅tr(A)。
-
转置不改变迹:tr(AT)=tr(A)。
-
共轭转置不改变迹:tr(A∗)=tr(A),其中A∗=AT=AT。
-
循环不变性:tr(ABC)=tr(BCA)=tr(CAB)。即使A,B,C不是方阵,只要它们的乘积是方阵,循环不变性仍然成立。这进一步引出了相似变换不变性:如果两个矩阵相似(即 B=P−1AP),那么它们的迹相等:
tr(B)=tr(P−1AP)=tr(APP−1)=tr(A⋅I)=tr(A)
这意味着迹是矩阵的一种固有几何属性,不随坐标系的选取(基变换)而改变。
-
乘积与转置:tr(ATB)=tr(BTA)=∑i=1n∑j=1nAijBji。
-
迹等于特征值之和:如果 A 的特征值是 λ1,λ2,…,λn,那么 tr(A)=λ1+λ2+⋯+λn。推广到方阵的幂次:
tr(Ak)=λ1k+λ2k+⋯+λnk
-
若 A=αβT,那么 tr(A)=tr(αβT)=αTβ=βTα。
-
二次型的迹:对于一个对称矩阵 A 和一个向量 x,tr(xTAx)=xTAx。
由乘积与转置的性质可以看出,迹可以用来定义矩阵的 Frobenius 内积 对于两个同型矩阵 A,B∈Rm×n:
⟨A,B⟩F=tr(ATB)=tr(BTA)=i=1∑nj=1∑nAijBji
- 把矩阵空间变成一个内积空间(标量)
- 当A和自己做内积时诱导出Frobenius范数:∥A∥F=⟨A,A⟩F=tr(ATA)
关于性质6:如果 A 可以对角化,即存在可逆阵 P 使得 P−1AP=Λ,其中 Λ 是对角线上为特征值 λi 的对角阵。利用相似不变性知道 Tr(A)=Tr(P−1AP)=Tr(Λ)。而对角阵 Λ 的迹显然就是 ∑λi。因为 (P−1AP)k=P−1AkP=Λk。Λk 的对角线元素正是 λ1k,λ2k,…,λnk。同理,根据迹的相似不变性:Tr(Ak)=Tr(Λk)=∑λik。
迹与矩阵求导#
对于一个函数 f(A)=tr(ATA),我们可以计算它的梯度(就是对A的导数):
∇Af(A)=∂A∂f(A)=2A这个结果在机器学习中经常出现,比如在最小二乘法中,我们需要最小化 tr((Y−XA)T(Y−XA)),通过计算梯度并设置为零,我们可以找到最优的参数矩阵 A。还有梯度下降里面牛顿法求解导数得零的过程中也会用到
附录:矩阵求导的符号约定#
求导结果的形式取决于 分子布局 还是 分母布局。
AI 领域(以及机器学习常用教材)通常默认使用【分母布局】。 即:如果 y 是标量,x 是列向量,那么 ∂x∂y 也是一个列向量。这样梯度更新时直接用 x−η∂x∂y 格式非常统一
| 符号 | 含义 | 导完空间 |
|---|
| ∂x∂y | 标量y对列向量 x 求导 | 与 x 同型 (n×1) |
| ∂x∂y | 列向量 y 对列向量 x 求导 | 雅可比矩阵 |
| ∂A∂y | 向量 y 对矩阵 A 求导 | 与A同型 |
标量对向量求导得到同型向量#
f(x)=⟨a,x⟩f(x)=⟨x,a⟩f(x)ifAissymmetric,f(x)f(x)=∣∣x∣∣22f(x)=∣∣x−a∣∣22=aTx=xTa=xTAx=xTAx=xTx=(x−a)T(x−a);∂x∂f(x);∂x∂f(x);∂x∂f(x);∂x∂f(x);∂x∂f(x);∂x∂f(x)=∂x∂aTx=a=∂x∂xTa=a=∂x∂xTAx=(A+AT)x=2Ax=∂x∂xTx=2x=∂x∂(x−a)T(x−a)=2(x−a)