开发者社区> 云栖技术> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

阿里云E-MapReduce Spark 作业配置

简介: 1.进入阿里云 E-MapReduce 控制台作业列表。 2.单击该页右上角的创建作业,进入创建作业页面。 3.填写作业名称。 4.选择 Spark 作业类型,表示创建的作业是一个 Spark 作业。
+关注继续查看

1.进入阿里云 E-MapReduce 控制台作业列表

2.单击该页右上角的创建作业,进入创建作业页面。

3.填写作业名称。

4.选择 Spark 作业类型,表示创建的作业是一个 Spark 作业。Spark 作业在 E-MapReduce 后台使用以下的方式提交:

spark-submit [options] --class [MainClass] xxx.jar args
5.在应用参数选项框中填写提交该 Spark 作业需要的命令行参数。请注意,应用参数框中只需要填写“spark-submit”之后的参数即可。以下分别示例如何填写创建 Spark 作业和 pyspark 作业的参数。

创建 Spark 作业

新建一个 Spark WordCount 作业。

作业名称: Wordcount

类型:选择 Spark

应用参数:

在命令行下完整的提交命令是:

spark-submit --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32

在 E-MapReduce 作业的应用参数框中只需要填写:

--master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32

需要注意的是:作业 Jar 包保存在 OSS 中,引用这个 Jar 包的方式是 ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar。您可以单击选择 OSS 路径,从 OSS 中进行浏览和选择,系统会自动补齐 OSS 上 Spark 脚本的绝对路径。请务必将默认的“oss”协议切换成“ossref”协议。

创建 pyspark 作业

E-MapReduce 除了支持 Scala 或者 Java 类型作业外,还支持 python 类型 Spark 作业。以下新建一个 python 脚本的 Spark Kmeans 作业。

作业名称:Python-Kmeans

类型:Spark

应用参数:

--master yarn-client --driver-memory 7g --num-executors 10 --executor-memory 5g --executor-cores 1  ossref://emr/checklist/python/kmeans.py oss://emr/checklist/data/kddb 5 32

支持 Python 脚本资源的引用,同样使用“ossref”协议。

pyspark 目前不支持在线安装 Python 工具包。

6选择执行失败后策略。

7.单击确定,Spark 作业即定义完成。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云E-MapReduce全面支持Alluxio,为大数据全“源”加速
导读:阿里云 E-MapReduce全面支持Alluxio,Alluxio作为大数据领域存储层解决方案,将大幅提升EMR产品服务能力。Alluxio可以对数据源进行性能优化和缓存加速,让计算层和存储层能够轻装上阵,独立优化,又能保持密切依赖关系。下面将为大家分享阿里云 E-MapReduce Alluxio的实践经验与技术方案。
879 0
阿里云创建E-MapReduce 4 创建执行计划
创建完作业后,若要让定义的作业到集群上运行,就需要创建一个执行计划。一个执行计划可以包含多个作业,用户也可自定义其先后顺序。例如,假设用户的一个场景是:产生数据 -> 处理数据 -> 清理数据,则用户可以分别定义三个名为“prepare-data”、“process-data”和“cleanup-data”的作业,然后创建一个执行计划来包含这三个作业。
1269 0
梨视频:基于阿里云E-MapReduce搭建视频推荐系统的实践
梨视频由前澎湃新闻掌门人邱兵创立。 在上线之前,它就获得了黎瑞刚华人文化近1亿美元投资,旗下《微辣》栏目总播放量已经超过4亿,并在上线1个月后获得“年度视频新媒体”大奖。 这样一款脱胎于传统媒体的创业型短视频软件,在视频领域异军突起,不仅让内人士在感叹梨视频内容生产力之强大的同时,也诧异于是谁在
12713 0
梨视频:基于阿里云E-MapReduce搭建视频推荐系统的实践
深度解答:梨视频如何基于阿里云快速搭建一个套推荐系统?
3879 0
+关注
云栖技术
社区爱好者,专为云栖社区服务!
34
文章
897
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载