开发者社区 问答 正文

E-MapReduceSpark 作业配置是什么?


  1. 进入阿里云E-MapReduce 控制台作业列表

  2. 单击该页右上角的创建作业,进入创建作业页面。

  3. 填写作业名称。

  4. 选择 Spark 作业类型,表示创建的作业是一个 Spark 作业。Spark 作业在 E-MapReduce 后台使用以下的方式提交: spark-submit [options] --class [MainClass] xxx.jar args

应用参数选项框中填写提交该 Spark作业需要的命令行参数。请注意,应用参数框中只需要填写“spark-submit”之后的参数即可。以下分别示例如何填写创建 Spark 作业和 pyspark作业的参数。

  • 创建 Spark 作业
    新建一个 Spark WordCount 作业。
    作业名称: Wordcount

  • 类型:选择 Spark

  • 应用参数:
    在命令行下完整的提交命令是:
    1. spark-submit --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32

  • 在 E-MapReduce 作业的应用参数框中只需要填写:
    1. --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32

需要注意的是:作业 Jar 包保存在 OSS 中,引用这个 Jar 包的方式是ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar。您可以单击 选择 OSS路径,从 OSS 中进行浏览和选择,系统会自动补齐 OSS 上 Spark脚本的绝对路径。请务必将默认的“oss”协议切换成“ossref”协议。
创建 pyspark 作业
E-MapReduce 除了支持 Scala 或者 Java 类型作业外,还支持 python 类型 Spark 作业。以下新建一个 python 脚本的Spark Kmeans 作业。

  • 作业名称:Python-Kmeans

  • 类型:Spark

  • 应用参数:
    1. --master yarn-client --driver-memory 7g --num-executors 10 --executor-memory 5g --executor-cores 1  ossref://emr/checklist/python/kmeans.py oss://emr/checklist/data/kddb 5 32

  • 支持 Python 脚本资源的引用,同样使用“ossref”协议。

  • pyspark 目前不支持在线安装 Python 工具包。

选择执行失败后策略。
单击 确定,Spark 作业即定义完成。

展开
收起
nicenelly 2017-10-30 14:05:14 1385 分享 版权
阿里云 AI 助理回答

您已经详细描述了在阿里云E-MapReduce控制台中创建Spark作业和PySpark作业的步骤,这里我再简要概括一下关键点以确保您理解无误:

创建Spark作业

  1. 进入控制台:登录阿里云官网,进入E-MapReduce服务控制台。
  2. 创建作业:点击作业列表右上角的“创建作业”按钮。
  3. 填写信息

    • 作业名称:输入一个易于识别的名称,如“WordCount”。
    • 类型选择:选择“Spark”作为作业类型。
    • 应用参数:根据您的示例,填写从spark-submit命令后的参数开始的部分。例如:
      --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32
      
    • 注意使用ossref协议来引用OSS上的jar包或资源。
  4. Jar包选择:如果作业依赖的jar包存储在OSS上,可以通过点击选择OSS路径完成自动填充。

  5. 执行失败策略:根据需要设置作业执行失败后的处理策略。
  6. 确定创建:检查无误后,点击“确定”完成作业定义。

创建PySpark作业

过程与创建Spark作业类似,但需注意以下几点: - 作业类型:依然选择“Spark”。 - 应用参数:调整为Python脚本的参数格式,例如:

--master yarn-client --driver-memory 7g --num-executors 10 --executor-memory 5g --executor-cores 1 ossref://emr/checklist/python/kmeans.py oss://emr/checklist/data/kddb 5 32
  • 确保Python脚本也通过ossref协议正确引用。

注意事项

  • 在提交作业时,务必确认所有必要的参数(如内存配置、核心数等)符合您的实际需求和集群配置。
  • 对于PySpark作业,当前不支持在线安装Python工具包,因此所有依赖需提前准备并上传至OSS。
  • 成功创建作业后,您可以监控作业运行状态,并根据执行结果进行后续操作或调整。

希望这些信息对您有所帮助!如果有更多关于阿里云E-MapReduce或其他产品的问题,请随时提问。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答