开发者社区大数据文章正文

【Spark Summit East 2017】使用Alluxio提升Spark效率

2017-02-19 2537

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Gene Pang与Haoyuan Li在Spark Summit East 2017上的演讲，主要介绍了Alluxio，前身为Tachyon，是内存加速虚拟分布式存储系统，该系统可以利用内存存储数据，并且加速访问从不同的数据存储系统的数据。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Gene Pang与Haoyuan Li在Spark Summit East 2017上的演讲，主要介绍了Alluxio，前身为Tachyon，是内存加速虚拟分布式存储系统，该系统可以利用内存存储数据，并且加速访问从不同的数据存储系统的数据。Alluxio拥有迅速成长的开源社区，并且已经被部署在阿里巴巴、百度以及Intel等，Alluxio可以提高Spark的效率，并为Spark与各中存储系统之间搭建桥梁，进一步对于数据密集型应用程序进行加速。

03db86a5ba25e1609371dfacf4d59bc2794b0b27

c0485870605abe0eecf858a5d03e9c1fa819360f

5d9c38cd0a533b4a2ff21eb3a21cbf0e67a97e74

5cebbce409c2e761b0462f6f55131276c157f38e

3cc5151378e74c015075733203c3ddb5b386c05c
e385861e855f2fa304e128c5f7104d009be2521e

0df7a8f5d5040c3202bc6cc195ef832238518e6e

dec073d68ba08ab396d8d5cada99287bd7b62229

503a1553bbcbb068994145006efef68b5326d517

8198d430a94c2f7969aae5a8aaa8101ac2f2145e

2d9a85ac444497e8a13899e77563126b0fc6fe8b

ab88fbd4dff0a28e4894adaefbe93c586c8c2ae9

326c759fd13043378ec72823b9c178511f4206b4

b5f08dfd36347d5169ce2ce77ed1413d4ddb8dfd

cbe26ea30fbcf18eae2da916a2d44abe170b53bb

6152d298244bfa666d1bda22c0fd9979772f92d1

094c5ceda4536eda6fe24fefff5c503236b94a3b

4ab5d7059759bca2b3f562b0b830e59788eec658

2d86b6d02dd5f2e40b13b8471eabec71c78867d6

f602edb1e287823e6d8a40a8434ef60ae5e006ed

f708c162dc07803f0af46eb2f19db8022bafe449

ee7fc6c2f71b1976d6a942e066def2437effc4b1

08310e78d8a60f3ad0b33ff835cf3235171cc126

8ce0dd66759135c48a70384d1bf22c74d4952009

文章标签：

存储

大数据

分布式计算

Spark

MaxCompute

关键词：

alluxio apache spark

小猫吃鱼569

开源大数据EMR

人工智能分布式计算大数据

Spark + AI Summit 2020 中文议题有奖征集

北美 Spark + AI Summit 2020 盛会在即，Apache Spark 中国技术交流社区在此诚邀各位，代表国内开发者选择您最希望听到的主题，届时社区将联合国内顶尖技术专家一一展开中文形式分享。

开源大数据EMR

1402 0 1

阿里云E-MapReduce团队

SQL 人工智能分布式计算

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

超乎你想象的干货合集打包带走！

阿里云E-MapReduce团队

23221 0 0

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

阿里云E-MapReduce团队

人工智能分布式计算 Spark

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

阿里云E-MapReduce团队

1129 0 0

迪科斯彻

存储分布式计算 Kubernetes

在 kubernetes 中用 alluxio 加速 spark 数据访问

Alluxio是一个开源的基于内存的分布式存储系统，适合作为云上大数据和AI / ML的数据编排方案。本文主要为大家讲解如何用alluxio加速spark数据访问。

迪科斯彻

974 0 0

阿里云E-MapReduce团队

机器学习/深度学习人工智能分布式计算

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍

阿里云E-MapReduce团队

2003 0 0

杨峻峰

存储分布式计算 Kubernetes

在kubernetes中用alluxio加速spark数据访问（二）

本文档主要说明怎样在k8s上用alluxio加速spark的数据访问。文档将演示结合spark、alluxio和k8s完成一个对文件单词进行计数的任务。在实验中，我们将开启alluxio的short-circuit的功能，验证spark executor与alluxio worker之间的通信是否通过domain socket方式完成。

杨峻峰

2533 0 0

杨峻峰

存储分布式计算 Kubernetes

在Kubernetes中用Alluxio加速Spark数据访问（一）

本文档主要说明怎样在k8s上用alluxio加速spark的数据访问。文档将演示结合spark、alluxio和k8s完成一个对文件单词进行计数的任务。在实验中，我们将关闭alluxio的short-circuit的功能，验证spark executor与alluxio worker之间的通信是否通过网络栈完成。

杨峻峰

2391 0 0

阿里云E-MapReduce团队

分布式计算 Prometheus Kubernetes

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布

阿里云E-MapReduce团队

2749 0 0

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

阿里云E-MapReduce团队

SQL 人工智能缓存

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

在Spark + AI Summit 2020上， Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰，在性能上大幅超越 Presto。在过去几年，我们见过了太多的 benchmark，大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心，可谓及时雨。

阿里云E-MapReduce团队

3016 0 0

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

阿里云E-MapReduce团队

机器学习/深度学习人工智能分布式计算

Spark + AI summit 2019北美技术峰会华丽落幕

本次SAIC含盖了数据工程与数据科学的内容，包括AI产品化的最佳实践案例分享：超大数据规模下，利用流数据处理确保训练数据更新的时效性，完成数据质量监控，测试以及数据模型服务。也有对流行的软件框架如TensorFlow，SciKit-Learn，Keras，PyTorch，DeepLearning4J，BigDL以及Deep Learning Pipelines等，分别进行深入的主题分享探讨。

阿里云E-MapReduce团队

1431 0 0

【Spark Summit East 2017】使用Alluxio提升Spark效率

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Spark Summit East 2017】使用Alluxio提升Spark效率

热门文章

最新文章

相关课程

相关电子书