文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

9月10日 Spark 社区直播【利用持久内存提速Spark】

2020-09-09 3427

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 主要探讨如何在Spark上使用持久内存这一新技术来进一步提速性能。具体会介绍基于Plasma的共享内存方案来提速SQL数据源访问的性能以及利用持久内存扩展Spark现有内存磁盘存储层级来提速RDD cache在迭代式计算中的效果。

主题：

利用持久内存提速Spark

简介：

主要探讨如何在Spark上使用持久内存这一新技术来进一步提速性能。具体会介绍基于Plasma的共享内存方案来提速SQL数据源访问的性能以及利用持久内存扩展Spark现有内存磁盘存储层级来提速RDD cache在迭代式计算中的效果。

时间：

9月10日 19:00 本周四

观看方式：

或届时进入直播间（回看链接）：
https://developer.aliyun.com/live/45184

讲师介绍：

纪琨尚，英特尔亚太研发有限公司大数据部门的软件工程师，专注于Spark计算框架上基于Optane PMEM的优化

叶宇强，英特尔亚太研发有限公司大数据部门的资深软件工程师，专注于Spark计算框架上基于Optane PMEM的优化
加速spark.png

文章标签：

开源大数据平台 E-MapReduce

分布式计算

SQL

Spark

存储

大数据

关键词：

apache spark社区

spark内存

apache spark内存

内存spark

社区内存

阿里云E-MapReduce团队

目录

相关文章

开发工程师

|

缓存运维 Java

带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化

带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化

开发工程师

475 100 152

开发工程师

|

存储关系型数据库 MySQL

带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化

带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化

开发工程师

1092 105 191

vohelon

|

机器学习/深度学习分布式计算数据处理

Spark是一个基于内存的通用数据处理引擎，可以进行大规模数据处理和分析

【5月更文挑战第2天】Spark是一个基于内存的通用数据处理引擎，可以进行大规模数据处理和分析

vohelon

537 3 3

aliyun9098636493-44413

|

SQL 分布式计算 Hadoop

Spark分布式内存计算框架

Spark分布式内存计算框架

aliyun9098636493-44413

1136 0 0

星光下的赶路人

|

分布式计算监控 Java

Spark学习---7、Spark内核（源码提交流程、任务执行、Shuffle、内存管理）（一）

Spark学习---7、Spark内核（源码提交流程、任务执行、Shuffle、内存管理）（一）

星光下的赶路人

650 0 1

码农工程师

|

安全 Java Go

Go 语言社区新提案 arena，可优化内存分配

Go 语言社区新提案 arena，可优化内存分配

码农工程师

591 0 0

Go 语言社区新提案 arena，可优化内存分配

-开发达人-

|

机器学习/深度学习分布式计算搜索推荐

从跨国投行到开源社区，IBM Spark总工程师Nick Pentreath的传奇经历

最近，随着 2016 机器学习行业应用国际峰会的举办，Pentreath 来到了北京。机器之心受邀对他进行了独家专访，我们一起聊了聊 Spark 的新版本、IBM 的开源精神、不同平台的竞争关系，以及他在高盛的传奇经历，其中不乏爆料和精彩的观点分享。让我们看看 Pentreath 是怎么说的。

-开发达人-

353 0 0

从跨国投行到开源社区，IBM Spark总工程师Nick Pentreath的传奇经历

萌狼蓝天

|

分布式计算 Scala Spark

【Spark】【RDD】从内存（集合）创建RDD

【Spark】【RDD】从内存（集合）创建RDD

萌狼蓝天

288 0 0

阿里云E-MapReduce团队

|

存储机器学习/深度学习分布式计算

10月29日社区直播【Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析】

介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。

阿里云E-MapReduce团队

4630 0 0

10月29日社区直播【Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析】

大熊计算机

|

12月前

|

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

658 0 0

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

如何使用Kafka Connect实现同步RDS binlog数据

JindoFS: 云上大数据的高性能数据湖存储方案

漫谈分布式计算框架

Apache Spark 3.0 将内置支持 GPU 调度

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

使用Hive进行OSS数据处理的一个最佳实践

开源深度学习库BigDL在阿里云E-MapReduce上的实践

Apache Spark + Intel Analytics Zoo 进行深度学习

E-MapReduce大数据安全实践

E-MapReduce启动/停止HBase集群

优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台

OpenClaw + QQ 机器人！保姆级图文教程，一步到位

1688商品详情API（1688.item_get）Python实战：构建B2B供应链数据中台

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

EMR Serverless Spark 携手 PAI/百炼，开启“SQL 即 AI”的新篇章

诗悦游戏基于DLF与EMR StarRocks降本38%

基于DLF构建实时数据湖

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

EXTENDING SPARK WITH JAVA AGENTS

Spark Streaming At Bing Scale

云服务器ECS内存增强型实例re6全新发布

下一篇

利用阿里云OSS（对象存储服务）快速搭建私人网盘