版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
您已经详细描述了在阿里云E-MapReduce控制台中创建Spark作业和PySpark作业的步骤,这里我再简要概括一下关键点以确保您理解无误:
填写信息:
spark-submit
命令后的参数开始的部分。例如:
--master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32
ossref
协议来引用OSS上的jar包或资源。Jar包选择:如果作业依赖的jar包存储在OSS上,可以通过点击选择OSS路径完成自动填充。
过程与创建Spark作业类似,但需注意以下几点: - 作业类型:依然选择“Spark”。 - 应用参数:调整为Python脚本的参数格式,例如:
--master yarn-client --driver-memory 7g --num-executors 10 --executor-memory 5g --executor-cores 1 ossref://emr/checklist/python/kmeans.py oss://emr/checklist/data/kddb 5 32
ossref
协议正确引用。希望这些信息对您有所帮助!如果有更多关于阿里云E-MapReduce或其他产品的问题,请随时提问。