更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。
本讲义出自Jong Wook Kim在Spark Summit East 2017上的演讲,主要介绍了CueSheet,一个围绕着Spark构建的开源框架,能够对于Spark应用程序的开发进行加速。
在Spark应用的开发中至关重要,但是并不是很有趣的一部分就是对应用进行打包,尽管有很多像Zeppelin 以及Databricks这样的笔记本式的交互环境,但是对于存在很多严重依赖的正式项目而言,经常存在将Spark项目作为单独的Scala版控制树进行管理。为了应对这些,官方文档告诉我们使用SBT或Maven插件组装的胖jar包并且运行spark-submit脚本,但是这将明显减慢开发周期。CueSheet无需打开终端就可以对于Spark应用进行打包、提交和部署,并且可以帮助开发者方便地进行编程和调试。