KNN
k-Nearest Neighbor k 最近邻算法,可以用于基本的分类与回归方法
算法基础
基本思想:如果一个样本在特征空间中与 k 个实例最为相似(即特征空间中最邻近),那么这 k 个实例中大多数属于哪个类别,则该样本也属于这个类别。
- 对于分类问题:对新的样本,根据其 k 个最近邻的训练样本的类别,通过多数表决等方式进行预测。
- 对于回归问题:对新的样本,根据其 k 个最近邻的训练样本标签值的均值作为预测值。
k近邻法的三要素:k 值选择、距离度量、决策规则
基本流程
- 计算测试对象到训练集中每个对象的距离
- 按照距离的远近排序
- 选取与当前测试对象最近的k的训练对象,作为该测试对象的邻居
- 统计这k个邻居的类别频次
- k个邻居里频次最高的类别,即为测试对象的类别
KD 树划分
更高的效率来对空间进行划分,寻找最近邻居和碰撞检测。