【Spark Summit East 2017】使用Alluxio提升Spark效率

简介: 本讲义出自Gene Pang与Haoyuan Li在Spark Summit East 2017上的演讲,主要介绍了Alluxio,前身为Tachyon,是内存加速虚拟分布式存储系统,该系统可以利用内存存储数据,并且加速访问从不同的数据存储系统的数据。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Gene Pang与Haoyuan  Li在Spark Summit East 2017上的演讲,主要介绍了Alluxio,前身为Tachyon,是内存加速虚拟分布式存储系统,该系统可以利用内存存储数据,并且加速访问从不同的数据存储系统的数据。Alluxio拥有迅速成长的开源社区,并且已经被部署在阿里巴巴、百度以及Intel等,Alluxio可以提高Spark的效率,并为Spark与各中存储系统之间搭建桥梁,进一步对于数据密集型应用程序进行加速。


03db86a5ba25e1609371dfacf4d59bc2794b0b27

c0485870605abe0eecf858a5d03e9c1fa819360f

5d9c38cd0a533b4a2ff21eb3a21cbf0e67a97e74

5cebbce409c2e761b0462f6f55131276c157f38e

3cc5151378e74c015075733203c3ddb5b386c05c
e385861e855f2fa304e128c5f7104d009be2521e

0df7a8f5d5040c3202bc6cc195ef832238518e6e

dec073d68ba08ab396d8d5cada99287bd7b62229

503a1553bbcbb068994145006efef68b5326d517

8198d430a94c2f7969aae5a8aaa8101ac2f2145e

2d9a85ac444497e8a13899e77563126b0fc6fe8b

ab88fbd4dff0a28e4894adaefbe93c586c8c2ae9

326c759fd13043378ec72823b9c178511f4206b4

b5f08dfd36347d5169ce2ce77ed1413d4ddb8dfd

cbe26ea30fbcf18eae2da916a2d44abe170b53bb

6152d298244bfa666d1bda22c0fd9979772f92d1

094c5ceda4536eda6fe24fefff5c503236b94a3b

4ab5d7059759bca2b3f562b0b830e59788eec658

2d86b6d02dd5f2e40b13b8471eabec71c78867d6

f602edb1e287823e6d8a40a8434ef60ae5e006ed

f708c162dc07803f0af46eb2f19db8022bafe449

ee7fc6c2f71b1976d6a942e066def2437effc4b1

08310e78d8a60f3ad0b33ff835cf3235171cc126

8ce0dd66759135c48a70384d1bf22c74d4952009

相关文章
|
人工智能 分布式计算 大数据
Spark + AI Summit 2020 中文议题有奖征集
北美 Spark + AI Summit 2020 盛会在即,Apache Spark 中国技术交流社区在此诚邀各位,代表国内开发者选择您最希望听到的主题,届时社区将联合国内顶尖技术专家一一展开中文形式分享。
Spark + AI Summit 2020 中文议题有奖征集
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
存储 分布式计算 Kubernetes
在 kubernetes 中用 alluxio 加速 spark 数据访问
Alluxio是一个开源的基于内存的分布式存储系统,适合作为云上大数据和AI / ML的数据编排方案。本文主要为大家讲解如何用alluxio加速spark数据访问。
659 0
在 kubernetes 中用 alluxio 加速 spark 数据访问
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
|
存储 分布式计算 Kubernetes
在kubernetes中用alluxio加速spark数据访问(二)
本文档主要说明怎样在k8s上用alluxio加速spark的数据访问。文档将演示结合spark、alluxio和k8s完成一个对文件单词进行计数的任务。在实验中,我们将开启alluxio的short-circuit的功能,验证spark executor与alluxio worker之间的通信是否通过domain socket方式完成。
2125 0
在kubernetes中用alluxio加速spark数据访问(二)
|
存储 分布式计算 Kubernetes
在Kubernetes中用Alluxio加速Spark数据访问(一)
本文档主要说明怎样在k8s上用alluxio加速spark的数据访问。文档将演示结合spark、alluxio和k8s完成一个对文件单词进行计数的任务。在实验中,我们将关闭alluxio的short-circuit的功能,验证spark executor与alluxio worker之间的通信是否通过网络栈完成。
2032 0
在Kubernetes中用Alluxio加速Spark数据访问(一)
|
分布式计算 Prometheus Kubernetes
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
|
SQL 人工智能 缓存
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
在Spark + AI Summit 2020上, Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
|
机器学习/深度学习 人工智能 分布式计算
Spark + AI summit 2019北美技术峰会华丽落幕
本次SAIC含盖了数据工程与数据科学的内容,包括AI产品化的最佳实践案例分享:超大数据规模下,利用流数据处理确保训练数据更新的时效性,完成数据质量监控,测试以及数据模型服务。也有对流行的软件框架如TensorFlow,SciKit-Learn,Keras,PyTorch,DeepLearning4J,BigDL以及Deep Learning Pipelines等,分别进行深入的主题分享探讨。