【Spark Summit East 2017】EasyMapReduce:利用Spark与Docker以MapReduce方式赋能大规模科学工具

简介: 本讲义出自Marco Cappucini在Spark Summit East 2017上的演讲,主要介绍了如何通过借助Spark和Docker在分布式数据集上使串行软件能够并行运行,瑞典的Uppsala大学开发了基于Spark的能够以MapReduce方式运行Docker容器的实用程序EasyMapReduce,分享了面对处理大型分布式数据集的挑战,EasyMapReduce是如何帮助实现科学研究的。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Marco Cappucini在Spark Summit East 2017上的演讲,主要介绍了如何通过借助Spark和Docker在分布式数据集上使串行软件能够并行运行,瑞典的Uppsala大学开发了基于Spark的能够以MapReduce方式运行Docker容器的实用程序EasyMapReduce,分享了面对处理大型分布式数据集的挑战,EasyMapReduce是如何帮助实现科学研究的。


3605343545beca061c0f404a4af150ae4840a099

be3199a17b672efebdfee45a8cb2fa890fd29dd8

5175b014f7dc6c10cd8a3c3099eb1eb956a7fb6b

da6ba9ca2a1b32e049b3a787425f6d0064b9a30b

8b7a1297105de90a5c5994665cc83cca9c1d850e

f7e4f6e92d345ac0d5d0147293c873fd467d2113

69af4cf4b019ea25ce4304b0ffabb8804ab4652c

cc73d00aa0e849e85782be5ef655b2e6d617eed0

96575b94df5ba37c61af90c9484af35072180765

a45a3aaa0572f4167e3c6b43b449534146b51bc1

bd614777b69089e743bbc1603d50a0a9eac9e2eb

5746f5f02662fbedf4e4aa16fb13e853b6d2d84a

34cd3036b502e1d071652d8de0a3cb65203f1624

9bbee4438781f4907d97126afa04f4d2cd9db005

866c7f64ebfdfd996551ebaaa9611d76f92b859c

43bd783643bc4f356f363d30b58ef01b5d3dec18

cd95d6b2ebb0dd81d64e35b1d6738d5f7881b2af

af384cf1fe01984791bf027cfb4024be35e3362e

51f13b919d47082b6894192b8173ae0ab614c444

9cbc69a6f362adbc77ba45e5e95b3f36d3525644

abb1ae5a1adba2471a8252addd533b39364f4d47

d27ad33c525cc13eedb4835dd621778c46104c33

826ed410a1a264fcdeb23ff69bdb649b933ae6a0

相关文章
|
3月前
|
数据采集 分布式计算 Hadoop
使用Hadoop MapReduce进行大规模数据爬取
使用Hadoop MapReduce进行大规模数据爬取
|
分布式计算 大数据 Spark
基于Docker搭建大数据集群(四)Spark部署
基于Docker搭建大数据集群(四)Spark部署
|
9月前
|
机器学习/深度学习 分布式计算 并行计算
MapReduce是一种用于并行计算的编程模型和处理大规模数据集的实现
MapReduce是一种用于并行计算的编程模型和处理大规模数据集的实现
119 0
|
分布式计算 Java Linux
docker下,极速搭建spark集群(含hdfs集群)
搭建spark和hdfs的集群环境会消耗一些时间和精力,今天咱们就借助docker,极速搭建和体验spark和hdfs的集群环境
767 0
docker下,极速搭建spark集群(含hdfs集群)
|
分布式计算 Java 大数据
docker下的spark集群,调整参数榨干硬件
调整docker-compose编排的参数,充分发挥硬件信息能运行spark集群
311 0
docker下的spark集群,调整参数榨干硬件
|
分布式计算 Ubuntu Hadoop
D001.8 Docker搭建Spark集群(实践篇)
环境及资源准备; 生成容器; 检验Hadoop与Spark
528 0
D001.8 Docker搭建Spark集群(实践篇)
|
存储 分布式计算 监控
基于Docker一键部署大规模Hadoop集群及设计思路
基于Docker一键部署大规模Hadoop集群及设计思路
1203 0
基于Docker一键部署大规模Hadoop集群及设计思路
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

热门文章

最新文章