【MaxCompute Spark】不想自己搭Spark集群, 也能跑Spark分布式作业？？？-阿里云开发者社区

【MaxCompute Spark】不想自己搭Spark集群, 也能跑Spark分布式作业？？？

2019-05-16 2239

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【MaxCompute Spark】不想自己搭Spark集群, 也能跑Spark分布式作业？？？

MaxCompute Spark 是什么？

阿里云的用户大部分应该都听说过MaxCompute，但是MaxCompute Spark是什么？我尝试用几个问题来回答这个问题。

公司准备把Spark的业务和作业上阿里云，从以前的经验来看，运维Spark+Hadoop集群可是个重头活，存不存在这种提供Spark服务的PaaS产品？
公司的部分业务以及作业顺利迁移至MaxCompute了，Spark作业还得能够和MaxCompute的数据无缝集成呀？
云上的Spark作业成本不知道该怎么打算盘了？

MaxCompute Spark提供了：

全托管、与MaxCompute一体化集成的Spark解决方案，只需关注Spark Application开发，没有集群运维的脏活累活。
从调度上、存储上，与MaxCompute native集成，性能最优解；并且能够无缝集成MaxCompute本身的数据。
Paas模式，单作业计费模式，比构建一个Spark集群更加便宜。

用MaxCompute Spark快速冒烟

我将以一个开发者的角色，以一个快速冒烟的Case，过一遍MaxCompute Spark的冒烟过程。

！！！前置依赖！！！
唯一的前置依赖是，已经是MaxCompute客户，并获取MaxCompute的

projectName
accessId
accessKey

步骤一获取MaxCompute Spark客户端

spark-2.3.0

请下载Spark客户端并且解压到本地的任意目录

步骤二配置spark-defaults.conf

# 解压后的下述路径有一个配置的模版
${SPARK_HOME}/conf/spark-defaults.conf.template

# 需要做一个rename操作
mv spark-defaults.conf.template spark-defaults.conf

# Edit 以下配置只需要填入projectName accessId accessKey即可
# OdpsAccount Info Setting
spark.hadoop.odps.project.name =
spark.hadoop.odps.access.id =
spark.hadoop.odps.access.key =
spark.hadoop.odps.end.point = http://service.cn.maxcompute.aliyun.com/api

# this endpoint should not change
spark.hadoop.odps.runtime.end.point = http://service.cn.maxcompute.aliyun-inc.com/api
# Resource Requirement
# spark.executor.instances = 1
# spark.executor.cores = 2
# spark.executor.memory = 6g
# spark.driver.cores = 2
# spark.driver.memory = 4g
# spark.master = yarn-cluster

# Cupid Service Version
spark.hadoop.odps.task.major.version = cupid_v2

# Odps Catalog
spark.sql.catalogImplementation = odps

# Cupid Longtime Job
# spark.hadoop.odps.cupid.engine.running.type = longtime
# spark.hadoop.odps.cupid.job.capability.duration.hours = 8640
# spark.hadoop.odps.moye.trackurl.dutation = 8640

# SparkR Setting
# odps.cupid.spark.r.archive=/path/to/R-PreCompile-Package.zip

spark.hadoop.odps.cupid.webproxy.endpoint: http://service.cn.maxcompute.aliyun-inc.com/api
spark.hadoop.odps.moye.trackurl.host: http://jobview.odps.aliyun.com

步骤三编写Spark Application

因为此Demo是冒烟意图，所以我们已经有一个写好了的SparkPi供客户直接使用

git clone git@github.com:aliyun/aliyun-cupid-sdk.git
cd aliyun-cupid-sdk
git checkout -b 3.3.3-public -t origin/3.3.3-public
cd spark/spark-2.x/spark-examples/
mvn clean package

# 编译完成后 以下jar包就是可以直接用来提交
/path/to/aliyun-cupid-sdk/spark/spark-2.x/spark-examples/target/spark-examples_2.11-3.3.3-public-shaded.jar

步骤四 spark-submit 提交作业

cd ${SPARK_HOME}
bin/spark-submit --master yarn-cluster \
                          --class com.aliyun.odps.spark.examples.SparkPi \
                          /path/to/aliyun-cupid-sdk/spark/spark-2.x/spark-examples/target/spark-examples_2.11-3.3.3-public-shaded.jar

# 正常提交我们可以看到两个URL

# logview MaxCompute内置的WebUI
http://logview.odps.aliyun.com/logview/?h=http://service.cn.maxcompute.aliyun.com/api&p=smoketest_ay20c&i=20190516110817581gbofkmim&token=RFZiMlNMUW5Ua2dUSHE5NkE5ZFRlUjRFTldJPSxPRFBTX09CTzoxNDM1NzcwMjYwMzQ2NTMxLDE1NTgyNjQwOTcseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL3Ntb2tldGVzdF9heTIwYy9pbnN0YW5jZXMvMjAxOTA1MTYxMTA4MTc1ODFnYm9ma21pbSJdfV0sIlZlcnNpb24iOiIxIn0=

# jobview Spark内置的WebUI
http://jobview.odps.aliyun.com/proxyview/jobview/?h=http://service.cn.maxcompute.aliyun-inc.com/api&p=smoketest_ay20c&i=20190516110817581gbofkmim&t=spark&id=application_1558004886350_754895007&metaname=20190516110817581gbofkmim&token=a2YxYnAraFVLbHVvM1poNjNHdDE5WThodFhFPSxPRFBTX09CTzoxNDM1NzcwMjYwMzQ2NTMxLDE1NTgyNjQxMzUseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL3Ntb2tldGVzdF9heTIwYy9pbnN0YW5jZXMvMjAxOTA1MTYxMTA4MTc1ODFnYm9ma21pbSJdfV0sIlZlcnNpb24iOiIxIn0=

这两个Url可以看到Spark作业的执行结果以及状态跟踪，至此，我们就非常简单的完成了Spark作业的提交。

技术支持

还是一句话，如果你想甩掉Spark集群的运维，并且以低成本高效的方式运行Spark服务，就来咨询我们团队吧！

用钉钉扫码咨询我们吧！

【MaxCompute Spark】不想自己搭Spark集群, 也能跑Spark分布式作业？？？

MaxCompute Spark 是什么？

用MaxCompute Spark快速冒烟

步骤一获取MaxCompute Spark客户端

步骤二配置spark-defaults.conf

步骤三编写Spark Application

步骤四 spark-submit 提交作业

技术支持

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【MaxCompute Spark】不想自己搭Spark集群, 也能跑Spark分布式作业？？？

MaxCompute Spark 是什么？

用MaxCompute Spark快速冒烟

步骤一 获取MaxCompute Spark客户端

步骤二 配置spark-defaults.conf

步骤三 编写Spark Application

步骤四 spark-submit 提交作业

技术支持

热门文章

最新文章

相关课程

相关电子书

步骤一获取MaxCompute Spark客户端

步骤二配置spark-defaults.conf

步骤三编写Spark Application