距离分类器#
TIP常见的非线性分类方法包括:
- 最近邻分类器(K-Nearest Neighbors, KNN):KNN是一种基于实例的学习方法,通过计算测试样本与训练样本之间的距离来进行分类。它不需要显式地构建模型,而是直接使用训练数据进行预测。
- 神经网络
- 核方法
基本思想:基于待识别样本与已知样本(或原型)之间的距离来判定类别。距离越小,相似度越高,类别归属越可能相同。
距离函数#
所有的距离分类器都需要定义一个距离函数来度量样本之间的相似度。常用的距离函数包括:
| 距离函数 | 公式 |
|---|
| 欧氏距离 | d(x,y)=∑i=1n(xi−yi)2 |
| 曼哈顿距离 | d(x,y)=∑i=1n∥xi−yi∥ |
| 切比雪夫距离 | d(x,y)=maxi=1n∥xi−yi∥ |
| 闵可夫斯基距离 | d(x,y)=(∑i=1n∥xi−yi∥p)1/p |
单个标准样本#
对于 c 个类别 ω1,ω2,…,ωc,每个类别有一个标准样本 Ti,对于待识别样本 x,计算其与每个标准样本的距离:
i0=arg1≤i≤cmind(x,Ti)则判别样本 x 属于类别 ωi0。
最近邻法#
规则:找与待测样本 x 距离最近的单个训练样本 x′,以这个最近样本 x′ 的类别作为待测样本 x 的预测类别。
理论保证:渐近误差不超过贝叶斯误差的2倍。
缺点:对噪声敏感,决策边界复杂(Voronoi图)。
K近邻法#
规则:找与待测样本 x 距离最近的 K 个训练样本,根据这 K 个样本的类别进行投票,选择出现频率最高的类别作为预测结果。
算法步骤:
- 计算待测样本 x 与所有训练样本的距离。
- 找出距离最近的 K 个训练样本。
- 根据这 K 个样本中各类样本的出现次数 Ni。
- 如果 i0=argmax1≤i≤cNi 是唯一的,则判别样本 x 属于类别 ωi0。
马氏距离测度学习#
马氏距离:
d(x,y)=(x−y)TΣ−1(x−y)其中 Σ 是一个数据的协方差矩阵。它的作用是消除特征量纲和相关性影响(正定矩阵)。
通过学习 Σ,可以使得同类样本之间的距离更小,不同类样本之间的距离更大,从而提高分类性能
模型:
Mminl(M,D,S,R)+λR(M)