针对普通感知机的三个问题:
实际上当样本可分时,会有无穷多种线性分类器
- (P1): 哪一个才是最优线性分类器
- (P2): 如何学习?
- (P3): 如何推广到线性不可分情形?
最优线性分类器-最优在哪#
定义1:点到超平面的欧氏距离:
对于一个线性分类器 g(x)=wTx+b,点 x0 到超平面的距离定义为:
d(x0)=∥w∥∣g(x0)∣=w12+w22+…+wd2∣wTx0+b∣定义2:分类间隔/几何距离/几何间隔/间隔:对于一个线性分类器 g(x)=wTx+b,分类间隔定义为:
γ=imin∥w∥yig(xi)=iminw12+w22+…+wd2yi(wTxi+b)
- 其中 yi 是样本 xi 的类别标签(通常为+1或-1)
- ∥w∥ 是权重向量的欧几里得范数。
- 分类间隔有正负,正数表示分类正确,负数表示分类错误。
SVM=极小极大问题=最大化分类间隔#
支持向量机(SVM)的核心思想是找到一个线性分类器,使得分类间隔 γ 最大化。换句话说,SVM 试图找到一个超平面,使得离它最近的训练样本点(即支持向量)与超平面的距离最大。
数学上,SVM 的优化问题可以表述为:
w,bmaximizeγ=imin∥w∥yi(wTxi+b)subject toyi(wTxi+b)≥1,∀i注意这里是对所有训练样本的约束条件,确保每个样本点都被正确分类,并且距离超平面至少为1。
此时简化为:
w,bminimize21∥w∥2=i=1∑nwi2subject toyi(wTxi+b)≥1,∀i