【Spark Summit East 2017】基于Spark的可扩展的层次聚类算法

简介: 本讲义出自Chen Jin在Spark Summit East 2017上的演讲,数据挖掘的第一步工作就是进行聚类,聚类的目标是减少数据冗余或者定义数据类型,层次聚类,是一种被广泛使用的集群技术,它可以通过提出潜在的组织结构从而提供更丰富的表现方式。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Chen Jin在Spark Summit East 2017上的演讲,数据挖掘的第一步工作就是进行聚类,聚类的目标是减少数据冗余或者定义数据类型,层次聚类,是一种被广泛使用的集群技术,它可以通过提出潜在的组织结构从而提供更丰富的表现方式。面对并行算法的挑战性,在讲义中Chen Jin通过将其转化为最小生成树问题设计一个单键分层聚类的并行实现方法。


3f3704b14e4110446f4ce7d3cbb9141b020ee7fc

5cac1a5a72e9f5189897137545c06e088dcb1513

421b24a6aa398a87471a13aaf873204a98590460

57000d4455e44ce0eb78930d4687b5a6ebdfca8d

7233941674c2ed1ce04f878a77a701060b86afc0

c32729984909771d7783eaf1057f061527cd20b9

0cbd324d51f47f676251b01f64062b5ce22b6e68

31ec3472d1c71e739ac87b4af00475f4e43b353c

ebb32b003286821aca3ea54ef81f913013849212

e0c83a1ef7d91786711fd3157397cf3aed90656f

2cb1c17e106f9c0c934dc49ad3f65d3f4512c6c9

aab87eee8fc780b92e87c82064b67f2f97f0eefd

62969d6a9b5ebd23b4cbc1c93547f55bfe55b2fe

56f501e944eae57fdf674cfb273328ec8000e30c

c19b161a306f4e0e952927872d61ee0c7169c0f1

d4cce36725d6f3b8b4bb258642da73aa6c2881fe

814549ddbc85f2ae9714f345c830e2b7f3e38dd5

b269f9000fe111696990ce61c3d4f57a592b9ef5

4dc9fa543e05eafe8ce79599dfe0ef937516976b

2e38f62baf6fac172f440ef4674cfdf87c730ecb

8761493f2e010e2fa9c0f5a0629f71175e2f443b

200ddd03644252806e8e34682a957bbb12264673

0f1f71711057a28c054916a51fab34bff2d9c074

f50a6f4ddc3fed7aa92597301d96d80d069d2c86

969db4820efc8f115555098a4d6383986812e200

58f3f0b0cdc3516ec683bcc0aa02cbc093953234

dfff95ba67dd42a49f9d08f7a242234466688bc5

a2ac9367c4f0025ab74c6b3334773fbec80e3e5f

8ef7afd63f93b0781394769731bff4ad213ef190

相关文章
|
6月前
|
机器学习/深度学习 分布式计算 算法
Spark中的机器学习库MLlib是什么?请解释其作用和常用算法。
Spark中的机器学习库MLlib是什么?请解释其作用和常用算法。
102 0
|
1月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
58 0
|
9天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
分布式计算 算法 大数据
大数据Spark MLlib推荐算法
大数据Spark MLlib推荐算法
252 0
|
分布式计算 算法 Java
ALS算法 java spark rdd简单实现
ALS算法 java spark rdd简单实现
128 0
|
分布式计算 算法 搜索推荐
Java编写的Spark ALS协同过滤推荐算法的源代码能共享一下
Java编写的Spark ALS协同过滤推荐算法的源代码能共享一下
115 0
|
分布式计算 算法 搜索推荐
Spark实现协同过滤CF算法实践
UI矩阵–>II矩阵–>排序
173 0
Spark实现协同过滤CF算法实践
|
存储 分布式计算 搜索推荐
【Spark MLlib】(六)协同过滤 (Collaborative Filtering) 算法分析
【Spark MLlib】(六)协同过滤 (Collaborative Filtering) 算法分析
345 0
【Spark MLlib】(六)协同过滤 (Collaborative Filtering) 算法分析
|
9天前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
36 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
1月前
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
38 0