【Spark Summit East 2017】基于Spark的可扩展的层次聚类算法

简介: 本讲义出自Chen Jin在Spark Summit East 2017上的演讲,数据挖掘的第一步工作就是进行聚类,聚类的目标是减少数据冗余或者定义数据类型,层次聚类,是一种被广泛使用的集群技术,它可以通过提出潜在的组织结构从而提供更丰富的表现方式。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Chen Jin在Spark Summit East 2017上的演讲,数据挖掘的第一步工作就是进行聚类,聚类的目标是减少数据冗余或者定义数据类型,层次聚类,是一种被广泛使用的集群技术,它可以通过提出潜在的组织结构从而提供更丰富的表现方式。面对并行算法的挑战性,在讲义中Chen Jin通过将其转化为最小生成树问题设计一个单键分层聚类的并行实现方法。


3f3704b14e4110446f4ce7d3cbb9141b020ee7fc

5cac1a5a72e9f5189897137545c06e088dcb1513

421b24a6aa398a87471a13aaf873204a98590460

57000d4455e44ce0eb78930d4687b5a6ebdfca8d

7233941674c2ed1ce04f878a77a701060b86afc0

c32729984909771d7783eaf1057f061527cd20b9

0cbd324d51f47f676251b01f64062b5ce22b6e68

31ec3472d1c71e739ac87b4af00475f4e43b353c

ebb32b003286821aca3ea54ef81f913013849212

e0c83a1ef7d91786711fd3157397cf3aed90656f

2cb1c17e106f9c0c934dc49ad3f65d3f4512c6c9

aab87eee8fc780b92e87c82064b67f2f97f0eefd

62969d6a9b5ebd23b4cbc1c93547f55bfe55b2fe

56f501e944eae57fdf674cfb273328ec8000e30c

c19b161a306f4e0e952927872d61ee0c7169c0f1

d4cce36725d6f3b8b4bb258642da73aa6c2881fe

814549ddbc85f2ae9714f345c830e2b7f3e38dd5

b269f9000fe111696990ce61c3d4f57a592b9ef5

4dc9fa543e05eafe8ce79599dfe0ef937516976b

2e38f62baf6fac172f440ef4674cfdf87c730ecb

8761493f2e010e2fa9c0f5a0629f71175e2f443b

200ddd03644252806e8e34682a957bbb12264673

0f1f71711057a28c054916a51fab34bff2d9c074

f50a6f4ddc3fed7aa92597301d96d80d069d2c86

969db4820efc8f115555098a4d6383986812e200

58f3f0b0cdc3516ec683bcc0aa02cbc093953234

dfff95ba67dd42a49f9d08f7a242234466688bc5

a2ac9367c4f0025ab74c6b3334773fbec80e3e5f

8ef7afd63f93b0781394769731bff4ad213ef190

相关文章
|
6月前
|
算法 数据可视化 数据挖掘
使用Python实现层次聚类算法
使用Python实现层次聚类算法
101 1
|
6月前
|
机器学习/深度学习 分布式计算 算法
Spark中的机器学习库MLlib是什么?请解释其作用和常用算法。
Spark中的机器学习库MLlib是什么?请解释其作用和常用算法。
112 0
|
6月前
|
算法 数据挖掘 Python
【数据挖掘】层次聚类DIANA、AGNES算法讲解及实战应用(图文解释 超详细)
【数据挖掘】层次聚类DIANA、AGNES算法讲解及实战应用(图文解释 超详细)
466 0
|
6月前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】层次聚类AGNES、二分K-Means算法的讲解及实战演示(图文解释 附源码)
【Python机器学习】层次聚类AGNES、二分K-Means算法的讲解及实战演示(图文解释 附源码)
216 0
|
1月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
63 0
|
24天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
1月前
|
存储 算法
数据结构与算法学习十六:树的知识、二叉树、二叉树的遍历(前序、中序、后序、层次)、二叉树的查找(前序、中序、后序、层次)、二叉树的删除
这篇文章主要介绍了树和二叉树的基础知识,包括树的存储方式、二叉树的定义、遍历方法(前序、中序、后序、层次遍历),以及二叉树的查找和删除操作。
27 0
|
5月前
|
机器学习/深度学习 算法 数据挖掘
算法金 | K-均值、层次、DBSCAN聚类方法解析
**摘要:** 这篇文章介绍了聚类分析的基本概念和几种主要的聚类算法。聚类是无监督学习中用于发现数据内在结构的技术,常用于市场分析、图像分割等场景。K-均值是一种基于划分的算法,简单高效但易受初始值影响;层次聚类包括凝聚和分裂方式,形成层次结构但计算复杂;DBSCAN基于密度,能处理任意形状的簇,但参数选择敏感。文章还讨论了这些算法的优缺点和适用场景,并提供了相关资源链接和Python实现。
107 9
算法金 | K-均值、层次、DBSCAN聚类方法解析
|
6月前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】层次聚类算法的原理与应用
【4月更文挑战第30天】层次聚类是数据挖掘中的聚类技术,无需预设簇数量,能生成数据的层次结构。分为凝聚(自下而上)和分裂(自上而下)两类,常用凝聚层次聚类有最短/最长距离、群集平均和Ward方法。优点是自动确定簇数、提供层次结构,适合小到中型数据集;缺点是计算成本高、过程不可逆且对异常值敏感。在Python中可使用`scipy.cluster.hierarchy`进行实现。尽管有局限,层次聚类仍是各领域强大的分析工具。
335 3
|
6月前
|
机器学习/深度学习 数据采集 SQL
R语言K-Means(K均值聚类)和层次聚类算法对微博用户特征数据研究
R语言K-Means(K均值聚类)和层次聚类算法对微博用户特征数据研究
下一篇
无影云桌面