线性分类器#
TIP想象二维平面上有两类点(比如红点和蓝点),线性分类器就是用一条直线把它们分开。
在三维空间里,就是用一个平面分开;更高维空间里,用一个超平面分开。
核心假设:数据点可以通过一个线性函数(超平面)来分割成不同的类别。
定义:对于输入空间 Rd 中的一个d 维原始特征向量 x=(x1,x2,…,xd)T,线性分类器通过一个线性函数 g(x)=wTx+b 来进行分类,其中 w=(w1,w2,…,wd)T 是权重向量,b 是偏置项。
- 如果 g(x)>0,则 x 被分类为正类(例如类别+1)。
- 如果 g(x)<0,则 x 被分类为负类(例如类别-1)。
- 如果 g(x)=0,则 x 位于决策边界上。
- 从几何意义上看,决策边界是一个超平面,由 wT 是法向量,b 是偏移量。
TIP推导:
对于两类 yi∈{−1,1∣i=1,2} 训练数据:y1{x1,x2,…,xn1}, y2{xn1+1,xn1+2,…,xn1+n2}
目标:找到一个 w 和 b 使得:
{wTxi+b>0,−(wTxj+b)>0,for i=1,2,…,n1for j=n1+1,n1+2,…,n1+n2写成矩阵形式,把两类训练数据合到一个矩阵中,并且纳入偏置项1,称为增广矩阵,后文的推导中均以增广矩阵为基础:
x1Tx2T⋮xn1T−xn1+1T−xn1+2T⋮−xn1+n2T11⋮1−1−1⋮−1w1w2⋮wdb>0⟺x11x21⋮xn11−xn1+11−xn1+21⋮−xn1+n21x12x22⋮xn12−xn1+12−xn1+22⋮−xn1+n22⋯⋯⋱⋯⋯⋯⋱⋯x1dx2d⋮xn1d−xn1+1d−xn1+2d⋮−xn1+n2d11⋮1−1−1⋮−1w1w2⋮wdb>0Xw>0X 是增广矩阵(d+1列),w 是增广权重向量。
这个解不唯一,定义一个准则函数 J(w),当 w 是解向量时,J(w) 为最小;
采用最优化方法求解标量函数 J(w) 的极小值。
最优化方法采用最多的是梯度下降法,设定初始权值向量 w(1),然后沿梯度的负方向迭代计算。
感知机#
定义标签 yi∈{1,−1∣i=1,2} ,定义输入d维特征向量 x=(x1,x2,…,xd)T,增广特征向量 x=(x1,x2,…,xd,1)T,权重向量 w=(w1,w2,…,wd,b)T。
决策函数(x经过增广处理):g(x)=wTx
- 一个样本 xi 到决策面的 有符号距离 为 ∥w∥g(xi),其中 ∥w∥ 是权重向量的范数,忽略。符号表示点位于哪一侧,大小表示离平面多远。
- 分类正确:yig(xi)>0 即真实标签与预测值同号。
- 分类错误:yig(xi)<0 即真实标签与预测值异号。
准则函数(批量下降):设错分类的样本集合为 X
Jp(w)=x∈X∑−(yig(xi))=x∈X∑−wTxi=x∈X∑−xiTw∇Jp(w)=x∈X∑−xiwargminJp(w)TIP
- choice1 :用分类错误的个数来定义,但是不可导
- choice2 :只考虑错分样本,并让它们到决策面的距离之和最小化。
这里取符号转化为最小化优化问题,yi 是确定的常量,可以直接去掉。
迭代更新权重(批量下降):
w(t+1)=w(t)+ηx∈X∑x感知器算法的特点如下:
- 当样本线性可分情况下,学习率合适时,算法具有收敛性。
- 收敛速度较慢。
- 当样本线性不可分情况下,算法不收敛,且无法判断样本是否线性可分。
LMSE 最小均方误差线性分类器#
LMSE将求解线性不等式组的问题转化为求解线性方程组。我们希望每个不等式都是大于0的,既然这样,LMSE设定了任意的正常数b,将不等式转化为等式,只要等式成立,那左边的多项式一定是大于0的。
Xw=bX 是增广矩阵(d+1列),w 是增广权重向量。
这一坨实际往往无解,X不是方阵。只能求一个近似解
决策函数:g(x)=wTx (和感知器一样)
准则函数(批量下降):让所有样本的输出尽可能接近预设的目标值 b, 避免离决策面太近
Js(w)=21i=1∑n(wTxi−b)2∇Js(w)=i=1∑n(wTxi−b)xi迭代更新权重(批量下降):
w(t+1)=w(t)−ηi=1∑n(wTxi−b)xiLMSE算法的特点如下:
-
算法的收敛程度依赖于学习率的衰减。
-
算法对于线性不可分的训练样本也能够收敛于一个均方误差最小解。
-
取b=1时,当样本数趋于无穷多时,算法的解以最小均方误差逼近贝叶斯判别函数。
-
当训练样本线性可分的情况下,算法未必收敛于一个分类超平面。
-
LMSE在线性可分的问题中,得到的效果不是很好,举例如下