《写给程序员的数据挖掘实践指南》——5.6近邻算法的改进-阿里云开发者社区

《写给程序员的数据挖掘实践指南》——5.6近邻算法的改进

2017-05-02 1304

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自异步社区出版社《写给程序员的数据挖掘实践指南》一书中的第5章，第5.6节，作者：【美】Ron Zacharski（扎哈尔斯基），更多章节内容可以访问云栖社区“异步社区”公众号查看。

5.6近邻算法的改进

一个普通的分类器的例子是Rote分类器，它只记忆所有的训练集，仅当实例与训练样本精确匹配时才对实例进行分类。如果只在训练集上进行评估，那么Rote分类器的精确率一直是100%。在实际中，由于有些待分类的实例不在训练集中出现，因此Rote分类器并不是一个好的选择。我们可以将前面介绍的近邻分类器看成是Rote分类器的一个扩展。与Rote分类器寻找精确匹配不同的是，近邻方法寻找近似的匹配。Pang Ning Tan、Michael Steinbach和Vipin Kumar在他们所著的数据挖掘教材1中称这种做法为“如果某个东西走路像鸭子，叫起来像鸭子，看上去也像鸭子，那么它可能就是一只鸭子”。

近邻算法在遇到离群点时会发生问题。下面对此进行解释。我们再次回到女子运动员那个例子，这次只考察体操运动员和马拉松运动员。假设有一个个子特别矮、体重特别轻的马拉松运动员。该数据可以用下面的图来表示，其中m表示马拉松运动员，g表示体操运动员。

可以看到，那个个子矮、体重轻的马拉松运动员处于很多g中间的那个m上。假设x是待分类的实例，其最近邻是那个离群点m，因此它被会分为马拉松运动员。如果我们仔细观察上图，我们会说x更像是一名体操运动员，这是因为它出现在一堆体操运动员中间。

kNN
当前的最近邻分类器的一种改进方法是考察k个而不只是1个最近的邻居（kNN）。每个邻居会进行投票，分类器会将实例分到具有最高投票数目的类别中去。例如，假设使用的是3个最近邻（k=3）。上图中会有2票投向体操运动员，1票投向马拉松运动员，因此我们预计x是一名体操运动员。

因此当预测离散型类别（例如，马拉松运动员、体操运动员或篮球运动员）时，可以利用上述投票方法。具有最高得票的类别将被分配给实例。如果存在多个得票相同的类别，则从中随机选择最后的类别。当进行数值预测时（比如给乐队Funky Meters打几星），可以通过计算距离权重值来将影响分摊给多个近邻。这里稍微更深入地分析一下。假设我们想预测Ben喜欢Funky Meters乐队的程度，而Ben的3个最近邻分别是Sally、Tara和Jade。下面给出了他们到Ben的距离以及他们对Funky Meters的评分结果。