更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。
本讲义出自Marco Cappucini在Spark Summit East 2017上的演讲,主要介绍了如何通过借助Spark和Docker在分布式数据集上使串行软件能够并行运行,瑞典的Uppsala大学开发了基于Spark的能够以MapReduce方式运行Docker容器的实用程序EasyMapReduce,分享了面对处理大型分布式数据集的挑战,EasyMapReduce是如何帮助实现科学研究的。