【Spark Summit EU 2016】在多核机器上提升Spark性能

简介: 本讲义出自Qifan Pu在Spark Summit EU 2016上的演讲,主要介绍了如何在多核机器上提升Spark的性能表现以及如何研究和实现内存shuffle。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Qifan Pu在Spark Summit EU 2016上的演讲,主要介绍了如何在多核机器上提升Spark的性能表现以及如何研究和实现内存shuffle。


因为Spark开始时是作为集群计算框架出现的,所以产生了多核机器上关于Spark的性能表现的研究,Spark的设计是基于多计算节点的,本讲义中Qifan Pu着重探讨了数据交互也就是shuffle。


c032a789d5c35adc12e1cce6e8b3103094bea3dd

d694d23bb315e85f637df14f5157096fbc5b9e88

1c3eb3bc0a5e8d9fd0381e11e7a526f284b3f488

5772cd36732ca00ccb3dcfc88ef1ba722e77c0fa

473cc9e9cc582d574fac63ee4d9bff120380eb99

a0403b9fb5376d08be1ceab627286211ea7c50af

3dd105cd9e9ced0fbd27f748762973f5833508a7

603ea9a9e6c3b4db32152f2351b70082f8d251c6

ee1a058d5964cf8ae9fd6ccdef1763ca7f647150

3be9470c261a9e19bbe14cc80c763e5db23821fd

12266978656acc44c76a99730d6eb78a9c4630e9

a995b599a10df80982057fc84fa26f7b28714376

a562a1025137e2e1407ddc7b056e15cafbbc0250

a6a34f8ba105a3325dd949c3fbe64ea7b332084f

078ec27fb9afbfb0bd0fc235cab1c1928978b3e2

c84ef4fc80e7ba5fdfad6752e21599cb42600148

7048a54b2c429613250865291c9b805057cc4c89

1536c84e1268bfabaa44f0a49d464ed7a42767db

47267917b975b058e4ba9c7089cb79030323fd54

8413f44980314adfe30df66823347fb64a2146c8

7d479c42a373776196bb6287ffd494a818c3c53a

84a985df35e5166a38aee7469cd84c60a6d18d0c

cba8876983759984f288f895b9275bc78194abb0

654b2a75d0afb38819243f5e7a2b17b236dd1afa

057bb1804233e55f85ccbee75b6fad11e82aead2

70881d4fec49f239c963914dce6e3c63b334b3a0

c4c3f41234e9c0421cf1e0fc6a59e339946fd0b5

66b6b519de32ba5b9e9f9b87da7ec62b3569a498

1821b93966e193e300c43c77c0ccda41cfd4e1a1

0cae8b208bb6024cfba283ed9fc3955fc57de7f9

0e3b34da66f81805221b10eec69c1be6a2c9f116

7fedb12f3c297c09234ae4915b89901326331b2d

aa32ab82adcfdf9a23fa7da36d7983e95b8c2ac7

c09d196a49c3c4654c6397ca1ac91d07ebbf42c6

22b58b61a404bc2a183f81588a245c90b2878444

917d229bf1b9b4b97b1ba5f8779f83f3c29c54f2


相关文章
|
3月前
|
缓存 分布式计算 监控
Spark RDD操作性能优化技巧
Spark RDD操作性能优化技巧
|
3月前
|
存储 缓存 分布式计算
Spark RDD持久化与缓存:提高性能的关键
Spark RDD持久化与缓存:提高性能的关键
|
3月前
|
分布式计算 Java 调度
Spark中的Shuffle过程是什么?为什么它在性能上很关键?
Spark中的Shuffle过程是什么?为什么它在性能上很关键?
28 0
|
SQL 分布式计算 Spark
SPARK SQL中 CTE(with表达式)会影响性能么?
SPARK SQL中 CTE(with表达式)会影响性能么?
586 0
SPARK SQL中 CTE(with表达式)会影响性能么?
|
SQL 缓存 分布式计算
Spark性能调优与故障处理
Spark性能调优 Spark数据倾斜 Spark Troubleshooting
459 0
|
SQL 存储 缓存
8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】
简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化,使用索引和缓存来解决交互式查询性能挑战。
8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】
|
SQL 分布式计算 Java
Apache Spark 3.0中的SQL性能改进概览
阿里巴巴高级技术专家李呈祥为大家带来Apache Spark 3.0中的SQL性能改进概览的介绍。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。
3529 0
Apache Spark 3.0中的SQL性能改进概览
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 分布式计算 Spark
钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】
直播主题:【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】 时间:6月19日 19:30-20:30 分享嘉宾:江宇,阿里云EMR技术专家。