E-MapReduceSpark 作业配置是什么?_问答-阿里云开发者社区

进入阿里云E-MapReduce 控制台作业列表。
单击该页右上角的创建作业，进入创建作业页面。
填写作业名称。
选择 Spark 作业类型，表示创建的作业是一个 Spark 作业。Spark 作业在 E-MapReduce 后台使用以下的方式提交： spark-submit [options] --class [MainClass] xxx.jar args

在 应用参数选项框中填写提交该 Spark作业需要的命令行参数。请注意，应用参数框中只需要填写“spark-submit”之后的参数即可。以下分别示例如何填写创建 Spark 作业和 pyspark作业的参数。

创建 Spark 作业
新建一个 Spark WordCount 作业。
作业名称： Wordcount
类型：选择 Spark
应用参数：
在命令行下完整的提交命令是：
1. spark-submit --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32
在 E-MapReduce 作业的应用参数框中只需要填写：
1. --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32

需要注意的是：作业 Jar 包保存在 OSS 中，引用这个 Jar 包的方式是ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar。您可以单击 选择 OSS路径，从 OSS 中进行浏览和选择，系统会自动补齐 OSS 上 Spark脚本的绝对路径。请务必将默认的“oss”协议切换成“ossref”协议。
创建 pyspark 作业
E-MapReduce 除了支持 Scala 或者 Java 类型作业外，还支持 python 类型 Spark 作业。以下新建一个 python 脚本的Spark Kmeans 作业。

作业名称：Python-Kmeans
类型：Spark
应用参数：
1. --master yarn-client --driver-memory 7g --num-executors 10 --executor-memory 5g --executor-cores 1 ossref://emr/checklist/python/kmeans.py oss://emr/checklist/data/kddb 5 32
支持 Python 脚本资源的引用，同样使用“ossref”协议。
pyspark 目前不支持在线安装 Python 工具包。

选择执行失败后策略。
单击确定，Spark 作业即定义完成。

--master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32

E-MapReduceSpark 作业配置是什么?

创建Spark作业

创建PySpark作业

注意事项

相关文章

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

E-MapReduceSpark 作业配置是什么?

创建Spark作业

创建PySpark作业

注意事项

相关文章