更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。
本讲义出自Chen Jin在Spark Summit East 2017上的演讲,数据挖掘的第一步工作就是进行聚类,聚类的目标是减少数据冗余或者定义数据类型,层次聚类,是一种被广泛使用的集群技术,它可以通过提出潜在的组织结构从而提供更丰富的表现方式。面对并行算法的挑战性,在讲义中Chen Jin通过将其转化为最小生成树问题设计一个单键分层聚类的并行实现方法。