特征值是针对方阵(n×n)定义的。
如果一个非零向量 v 在经过矩阵 A 变换后,方向保持不变,只是长度发生了伸缩,那么:
Av=λv
速记性质#
- 不同特征值对应的特征向量线性无关。
- 矩阵的迹=特征值之和,行列式=特征值之积。
- 对称矩阵的特征值都是实数,且对应的特征向量可以选取为相互正交的。
- 相似矩阵具有相同的特征值。(可以把大矩阵化成小矩阵来减少计算量)
- 对于上/下三角矩阵,特征值就是对角线上的元素。(根据定义 A−λI 的行列式展开,非对角线元素不参与计算)
特征值分解(EVD)#
算出了矩阵 A 的 n 个特征值 λ1,λ2,…,λn 及其对应的特征向量 v1,v2,…,vn,那么把这些向量按列排在一起构成的矩阵 P,就是特征向量矩阵:
P=∣v1∣∣v2∣⋯∣vn∣=v11v21⋮vn1v12v22⋮vn2⋯⋯⋱⋯v1nv2n⋮vnn把特征值打包进对角阵 Λ:
Λ=λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn有
AP=PΛ如果 P 是可逆的(即特征向量线性无关,列向量组 vi 可以作为一组基),我们可以两边乘以 P−1,得到:
A=PΛP−1=i=1∑nλiviviT这就是矩阵的 特征值分解 (EVD)或者叫矩阵的对角化:
对于第一个等号:矩阵 A 的所有作用,都可以分解为:
- 先换个坐标系(P−1)
- 在新坐标系下缩放(Λ)
- 再换回原坐标系(P)
如果 A 是对称矩阵(协方差矩阵或 Gram 矩阵),它的特征向量矩阵 P 不仅可逆,而且可以是正交矩阵(记作 Q)。这意味着 Q−1=QT。此时对角化公式变为:A=QΛQT。
这种变换仅仅是空间的旋转,不会扭曲空间。这就是为什么在降维(PCA)时,我们总能得到一组互相垂直的新坐标轴。
对于第二个等号:谱分解定理,将矩阵A分解成多个秩为1的矩阵(viviT 是一个秩为1的矩阵)之和,每个秩为1的矩阵都被对应的特征值 λi 缩放。
对角化的充分必要条件#
代数重数AM:特征值 λ 的代数重数是它作为特征方程根的重数。
几何重数GM:特征值 λ 的几何重数是对应于 λ 的特征向量的线性无关个数。也是 A−λI 的 零空间的维数 (计算依据)。
恒满足 1≤GM≤AM。
当且仅当每个特征值的几何重数等于代数重数时,矩阵 A 才能被对角化。
TIP对角化等价于存在一组由特征向量构成的基。
每个特征值 λ 的几何重数就是该特征值对应的线性无关特征向量的最大个数。
如果 GM≤AM,意味着该特征值无法提供足够多的线性无关特征向量,从而无法填满整个空间,无法对角化。
可逆性与特征值#
矩阵可逆的充要条件是:所有特征值均不为零。
因为如果存在一个特征值 λi=0,对应的特征向量 vi 满足 Avi=0⋅vi=0,这说明 A 存在非零向量被映射到零向量,即 A 不可逆。
或者者从行列式的角度看,det(A)=∏i=1nλi,如果有一个 λi=0,则 det(A)=0,矩阵不可逆。
手撕特征值和特征向量#
手算的核心只有一句话:寻找让矩阵 (A−λI) 变成奇异矩阵(不可逆)的那个 λ。
也就是特征方程(其实就是个行列式):
det(A−λI)=0对于二阶矩阵,特征方程有如下形式:
λ2−tr(A)λ+det(A)=0三阶矩阵的形式需要引入二阶主子式 Mii ( 即划掉第 i 行第 i 列后剩下的 2×2 行列式)(注意不是代数余子式)
λ3−Tr(A)λ2+(M11+M22+M33)λ−det(A)=0注意用两个等式检验:
{tr(A)=∑i=1nλidet(A)=∏i=1nλi解出来特征值,然后再解线性方程组,得到特征向量。
计算机方法:QR算法#
5次及以上的多项式没有通用的代数求根公式。所以,计算机放弃了去解那个复杂的 det(A−λI)=0,转而采用一种“不断磨平”矩阵的迭代策略。
QR分解的核心思想#
把矩阵 A 分解成一个正交矩阵 Q 和一个上三角矩阵 R,即 A=QR。
QR算法的迭代过程#
-
初始化:令 A0=A。
-
迭代(对于 k=0,1,2,…):
- 将当前的矩阵进行 QR 分解:Ak=QkRk
- QR反过来相乘得到下一个矩阵:Ak+1=RkQk
-
收敛:随着迭代次数增加,Ak 会逐渐趋向于一个上三角矩阵。
QR反过来相乘这是一个神奇的数学技巧。观察一下:
Ak+1=RkQk=(QkTAk)Qk=Qk−1AkQk这意味着 Ak+1 始终与 Ak 相似。所以无论迭代多少次,QR反过来相乘。而在不断的分解与重新组合中,矩阵非对角线下方的元素会不断趋近于 0。