本节书摘来自华章出版社《机器学习与R语言(原书第2版)》一书中的第3章,第3.3节,美] 布雷特·兰茨(Brett Lantz) 著,李洪成 许金炜 李舰 译更多章节内容可以访问云栖社区“华章计算机”公众号查看。
3.3 总结
在本章中,我们学习了使用kNN算法进行分类。不同于很多其他的分类算法,kNN并没有进行任何学习,它一字不差地存储训练数据。然后使用一个距离函数将无标记的测试案例与训练数据集中最相似的记录进行匹配,并将无标记案例的邻居的标签分配给它。
尽管事实上kNN是一个非常简单的算法,但是它却能够处理极其复杂的任务,比如识别癌细胞的肿块。用简单的几行R代码,就能够以高达98%的准确率识别一个肿块是恶性的还是良性的。
在第4章中,我们将研究使用概率来估计一个观测值落入某些类别中的分类方法,比较该方法与kNN算法有何不同将会很有趣。之后,在第9章中,我们将学习一个与kNN算法很相似的算法,该方法把距离度量用于一个完全不同的学习任务。