第3章 聚 类 算 法
聚类在百度百科上的定义为:将物体或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类在生活中的应用有很多,例如,在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群特征;在生物学上,聚类用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识;在互联网上,聚类也能用于对Web上的文档进行分类,以发现信息。不得不说,聚类在生活中的应用也是很广泛的。
聚类算法在Mahout中是单独的一个模块,这个模块包含很多不同的具体算法,在第1章中已经介绍,此处不再赘述。
本章主要分析Canopy、K-Means和Mean Shift这三个算法。一般按照下面的步骤进行分析:首先分析这些算法的基本原理,然后分析其在Mahout中的实现原理,最后通过对每个算法调用Mahout的算法包中相应的算法接口来实战演示如何调用每个算法,主要包括输入数据的获取、算法包中算法的参数意义、调用算法接口以及对生成结果的分析。