文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

8月14日Spark社区直播【Spark Shuffle 优化】

2019-08-12 1644

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本次直播介绍EMR Spark 在shuffle方面的相关优化工作，主要包含shuffle 优化的背景以及shuffle 优化的设计方案，最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据

直播间直达链接：（回看链接）

https://tianchi.aliyun.com/course/live?&liveId=41076

或钉钉扫描海报上二维码，进群直接观看。

时间

8月14日19:00

主讲人：

辰石，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。

简介：

本次直播介绍EMR Spark 在shuffle方面的相关优化工作，主要包含shuffle 优化的背景以及shuffle 优化的设计方案，最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据

_Spark_Shuffle____spark_

文章标签：

开源大数据平台 E-MapReduce

分布式计算

Spark

关键词：

社区apache spark

阿里云E-MapReduce团队

目录

相关文章

开源大数据EMR

|

机器学习/深度学习人工智能分布式计算

7月23日社区直播【TFPark: Distributed TensorFlow in Production on Apache Spark】

TFPark是开源AI平台Analytics Zoo中一个模块，它的可以很方便让用户在Spark集群中分布式地进行TensorFlow模型的训练和推断。一方面，TFPark利用Spark将TensorFlow 定义的AI训练或推理任务无缝的嵌入到用户的大数据流水线中，而无需对现有集群做任何修改；另一方面TFPark屏蔽了复杂的分布式系统逻辑，可以将单机开发的AI应用轻松扩展到几十甚至上百节点上。本次分享将介绍TFPark的使用，内部实现以及在生产环境中的实际案例。

开源大数据EMR

891 57 57

7月23日社区直播【TFPark: Distributed TensorFlow in Production on Apache Spark】

阿里云E-MapReduce团队

|

分布式计算大数据 Apache

稳赚不赔～Spark社区招募志愿者！

可能是21世纪唯一不看颜值只看人品的招募

阿里云E-MapReduce团队

1109 0 1

稳赚不赔～Spark社区招募志愿者！

开源大数据EMR

|

分布式计算数据可视化 IDE

5月21日 Spark 社区直播【Spark on Zeppelin】

Apache Zeppelin 是一个交互式的大数据开发Notebook，从一开始就是为Spark定制的。Zeppelin Notebook的开发环境与传统IDE开发环境相比有几大优势：不需要编译Jar，环境配置简单，交互式开发，数据结果可视化等等。本次直播将会介绍Spark on Zeppelin的一些基本使用方式以及应用场景。

开源大数据EMR

1023 0 1

5月21日 Spark 社区直播【Spark on Zeppelin】

-开发达人-

|

机器学习/深度学习分布式计算搜索推荐

从跨国投行到开源社区，IBM Spark总工程师Nick Pentreath的传奇经历

最近，随着 2016 机器学习行业应用国际峰会的举办，Pentreath 来到了北京。机器之心受邀对他进行了独家专访，我们一起聊了聊 Spark 的新版本、IBM 的开源精神、不同平台的竞争关系，以及他在高盛的传奇经历，其中不乏爆料和精彩的观点分享。让我们看看 Pentreath 是怎么说的。

-开发达人-

353 0 0

从跨国投行到开源社区，IBM Spark总工程师Nick Pentreath的传奇经历

阿里云E-MapReduce团队

|

存储机器学习/深度学习分布式计算

10月29日社区直播【Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析】

介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。

阿里云E-MapReduce团队

4630 0 0

10月29日社区直播【Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析】

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算并行计算

10月15日社区直播【Intel MLlib：构建平台优化的Spark机器学习】

Intel MLlib是一个为Apache Spark MLlib优化的软件包。它在保持和Spark MLlib兼容的同时，在底层利用原生算法库来实现在CPU和GPU上的最优化算法，同时使用Collective Communication来实现效率更高的节点间通信。我们的初步结果表明，该软件包在最小化应用改动的基础上，可以极大地提升MLlib算法的性能。

阿里云E-MapReduce团队

3112 0 0

10月15日社区直播【Intel MLlib：构建平台优化的Spark机器学习】

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

9月10日 Spark 社区直播【利用持久内存提速Spark】

主要探讨如何在Spark上使用持久内存这一新技术来进一步提速性能。具体会介绍基于Plasma的共享内存方案来提速SQL数据源访问的性能以及利用持久内存扩展Spark现有内存磁盘存储层级来提速RDD cache在迭代式计算中的效果。

阿里云E-MapReduce团队

3427 0 0

9月10日 Spark 社区直播【利用持久内存提速Spark】

阿里云E-MapReduce团队

|

SQL 存储缓存

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】

简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化，使用索引和缓存来解决交互式查询性能挑战。

阿里云E-MapReduce团队

1977 0 0

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】

阿里云E-MapReduce团队

|

机器学习/深度学习 SQL 分布式计算

7月9日Spark社区直播【通过LLVM加速SparkSQL时间窗口计算】

为什么要优化spark时间窗口 - 未加速前面临问题 - 为什么要使用llvm加速而不是继续优化jvm codegen - 实现介绍-llvm 版本sql引擎设计 - 如何与spark集成 - benchmark数据 vs spark3.0

阿里云E-MapReduce团队

1071 0 0

7月9日Spark社区直播【通过LLVM加速SparkSQL时间窗口计算】

阿里云E-MapReduce团队

|

机器学习/深度学习 SQL 分布式计算

6月23日 Spark 社区技术直播【半小时，将你的Spark SQL模型变为在线服务】

SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大我们是如何解决这些问题相对传统实现方式我们优势 SparkSQL实时上线demo

阿里云E-MapReduce团队

915 0 0

6月23日 Spark 社区技术直播【半小时，将你的Spark SQL模型变为在线服务】

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

如何使用Kafka Connect实现同步RDS binlog数据

JindoFS: 云上大数据的高性能数据湖存储方案

漫谈分布式计算框架

Apache Spark 3.0 将内置支持 GPU 调度

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

使用Hive进行OSS数据处理的一个最佳实践

开源深度学习库BigDL在阿里云E-MapReduce上的实践

Apache Spark + Intel Analytics Zoo 进行深度学习

E-MapReduce大数据安全实践

E-MapReduce启动/停止HBase集群

优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台

OpenClaw + QQ 机器人！保姆级图文教程，一步到位

1688商品详情API（1688.item_get）Python实战：构建B2B供应链数据中台

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

EMR Serverless Spark 携手 PAI/百炼，开启“SQL 即 AI”的新篇章

诗悦游戏基于DLF与EMR StarRocks降本38%

基于DLF构建实时数据湖

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

利用阿里云OSS（对象存储服务）快速搭建私人网盘