【Spark Summit East 2017】不再有“Sbt Assembly”了:使用CueSheet反思Spark Summit

简介: 本讲义出自Jong Wook Kim在Spark Summit East 2017上的演讲,主要介绍了CueSheet,一个围绕着Spark构建的开源框架,能够对于Spark应用程序的开发进行加速。CueSheet无需打开终端就可以对于Spark应用进行打包、提交和部署,并且可以帮助开发者方便地进行编程和调试。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Jong Wook Kim在Spark Summit East 2017上的演讲,主要介绍了CueSheet,一个围绕着Spark构建的开源框架,能够对于Spark应用程序的开发进行加速。


在Spark应用的开发中至关重要,但是并不是很有趣的一部分就是对应用进行打包,尽管有很多像Zeppelin 以及Databricks这样的笔记本式的交互环境,但是对于存在很多严重依赖的正式项目而言,经常存在将Spark项目作为单独的Scala版控制树进行管理。为了应对这些,官方文档告诉我们使用SBT或Maven插件组装的胖jar包并且运行spark-submit脚本,但是这将明显减慢开发周期。CueSheet无需打开终端就可以对于Spark应用进行打包、提交和部署,并且可以帮助开发者方便地进行编程和调试。


76e4d564e997796c316fb8397927872565859587

39af5d6b50e1e6d4f82f66c083c8b3c6b75825d3

427242de2e3e0c94afafcc8b5cce34ed404dcf3e

33a051fa0314367d7a15e884c9c1a7bd3fa71d6e

fded069e705b47523f9d45d72c785cfb092937c9

f13fcf7eb497e17d39ffd20bfe323b21725086cf

789c095ebd38c8ba7d9863dc550e3dee13b1f320

a7325a284d7d049d009c4e3b4a2a394d6bb557b2

4237e27b4cefcfac48a1b9fb2cd5daa2ae58379e

a195784da34021c8aa6b8b682490907729f15ea1

fcb18ca29c7ece94f0f8135903dd20e6316cba7c

614033635475736094cc78e3f944c7a0a329fc14

1acb43e9f29666b6f026d89ee47a85fb03c714af

83f96f8c3a636fff36511070f1a52bd241d0b612

dd21538aa72f94ffe115a7d34b4561d2cf01f3b4

02ed7ef45670fd82c3c4b5b791df2bfc3c153af7

4730b2d0bc660c5d486321be8e26ea454e80d6dd

7a8ebc1b6eb8a14a72d6e52a8adc7e523d3c5821

3a9adb4f3becf7e70c26ecb2cfc186ef0d9f2833

ae43fcbc4d593a1f267820e8ecf0ded93a8a2273

相关文章
|
缓存 分布式计算 Linux
spark开发环境详细教程2:window下sbt库的设置
spark开发环境详细教程2:window下sbt库的设置
206 0
spark开发环境详细教程2:window下sbt库的设置
|
人工智能 分布式计算 大数据
Spark + AI Summit 2020 中文议题有奖征集
北美 Spark + AI Summit 2020 盛会在即,Apache Spark 中国技术交流社区在此诚邀各位,代表国内开发者选择您最希望听到的主题,届时社区将联合国内顶尖技术专家一一展开中文形式分享。
Spark + AI Summit 2020 中文议题有奖征集
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
|
分布式计算 Prometheus Kubernetes
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
|
SQL 人工智能 缓存
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
在Spark + AI Summit 2020上, Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
|
机器学习/深度学习 人工智能 分布式计算
Spark + AI summit 2019北美技术峰会华丽落幕
本次SAIC含盖了数据工程与数据科学的内容,包括AI产品化的最佳实践案例分享:超大数据规模下,利用流数据处理确保训练数据更新的时效性,完成数据质量监控,测试以及数据模型服务。也有对流行的软件框架如TensorFlow,SciKit-Learn,Keras,PyTorch,DeepLearning4J,BigDL以及Deep Learning Pipelines等,分别进行深入的主题分享探讨。
|
机器学习/深度学习 分布式计算 大数据
|
分布式计算 Hadoop 流计算
【Hadoop Summit Tokyo 2016】像搭乐高一样搭建Storm与Spark Streaming Pipelines块
本讲义出自Arun Murthy在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Arun Murthy与团队的从各种流使用中学习到的最佳实践和经验,演讲的内容非常简单易懂并且非常有趣,在演讲的最后还介绍了像搭乐高一样搭建Storm与Spark Streaming Pipelines块的相应工具。
2495 0