kNN¶
k近邻模型实际上并没有显式的学习过程,他的策略就是对输入点周围的k个最近的训练点进行分析,根据某些原则(比如多数表决)来判断输入点的标签。这样的模型看似是比较简单的,但是实际上所谓的“最近”还并没有一个确定的方式度量。比较自然的想法是\(L_p\)范数,但是实际上,我们用来训练的数据点中可能受一些噪声的影响,导致有些情况下标签不同的点反而离得更近(在\(L_p\)范数下的度量)。此时我们可能可以利用一些线性变换,先将数据点的位置移动到合理的位置,也就是让标签相同的数据离得更近,标签不同的数据离得更远。
strategy¶
通过寻找目标点最近的k个点,然后利用多数表决的原则对目标点进行分类。
decision by majority¶
这里想提一句的是多数表决原则实际上就是经验概率最大化。
about k¶
k的值越大,决策数据集越接近全集,这时候离实例点很远的点也可能会对判断产生影响。
k的值越小,决策数据集受到噪声的影响就更大,比如离目标点最近的点如果是一个噪声,那么目标点就会被错误标签。但是测试数据集如果和训练数据集很近的话,那么效果比较好。
所以k的选择还是要根据实际而定。