开发者社区 问答 正文

E-MapReduce 如何快速开始?

注意:请确认您已经完成了 必选准备工作
通过本教程,用户能够基本了解E-MapReduce中集群、作业和执行计划的作用和使用方法。能够创建一个SparkPi的作业在集群上运行成功,并最后在控制台页面上看到圆周率Pi的近似计算结果。

  1. 创建集群在EMR产品控制台左侧选择集群,并点击右上创建集群
  2. 软件配置选择最新的EMR产品版本,比如EMR-3.4.1
  3. 使用默认软件配置
硬件配置
  1. 选择按量付费
  2. 若没有安全组,打开新建,并填写安全组名称
  3. 选择 Master 4核8G
  4. 选择 Core 4核8G, 两台
  5. 其他保持默认
基础配置
  1. 填写集群名称
  2. 选择日志路径保存作业日志,务必开启在集群对应的地域创建OSS的Bucket
  3. 填写密码
创建集群创建作业
  1. 在控制台左侧选择作业,并点击右上创建作业
  2. 填写作业名称
  3. 选择Spark类型
  4. 参数填写,使用如下--class org.apache.spark.examples.SparkPi --master yarn-client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /usr/lib/spark-current/examples/jars/spark-examples_2.11-2.1.1.jar 10
注意:,这个/usr/lib/spark-current/examples/jars/spark-examples_2.11-2.1.1.jar,需要根据实际集群中的 Spark 版本来修改这个jar包,比如 Spark 是2.1.1的,那么就是spark-examples_2.11-2.1.1.jar,如果是2.2.0的,那么就是spark-examples_2.11-2.2.0.jar其他保持默认,创建作业创建执行计划
  1. 确认之前创建的集群已经创建成功以后,在列表上的状态显示为空闲
  2. 在控制台左侧选择执行计划,并点击右上创建执行计划
  3. 创建时选择已有集群,并选择之前创建集群进行关联
  4. 将之前创建的作业,加入到运行队列中
  5. 填写执行计划名称
  6. 默认手动执行
  7. 创建执行计划
运行执行计划
  1. 在执行计划列表页面,点击立即运行
查看作业日志并确认结果
  1. 点击管理,进入管理页面,在下方查看运行记录
  2. 点击运行记录的右侧,查看作业列表
  3. 点击stdout能够查看到Pi的近似计算结果:3.14xxxx

展开
收起
nicenelly 2017-10-27 14:34:20 2181 分享 版权
阿里云 AI 助理回答

您已经成功地了解了如何在阿里云E-MapReduce(EMR)平台上创建集群、作业和执行计划,并运行了一个SparkPi示例来近似计算圆周率Pi。下面是对您操作步骤的简要回顾及补充说明:

  1. 创建集群:

    • 选择最新的EMR版本,如EMR-3.4.1,使用默认软件配置。
    • 硬件配置方面,选择了按量付费模式,为Master节点配置了4核8G内存,Core节点配置了两台,每台也是4核8G内存。
    • 创建或选择安全组以确保网络安全。
    • 填写集群名称,指定日志路径(通过OSS Bucket保存),并设置密码完成集群创建。
  2. 创建作业:

    • 在控制台选择“作业”并创建新作业,指定作业类型为Spark。
    • 参数填写中,指定了运行的类org.apache.spark.examples.SparkPi以及资源管理器、驱动程序内存等参数。注意根据实际集群中的Spark版本调整jar包路径。
    • 完成作业设置后创建作业。
  3. 创建执行计划:

    • 确认集群状态为空闲后,在“执行计划”界面创建新的执行计划。
    • 关联之前创建的集群,将已创建的SparkPi作业添加到执行队列中,设定执行计划名称,并选择手动执行方式。
  4. 运行执行计划与查看结果:

    • 启动执行计划后,通过执行计划列表页面的“立即运行”按钮启动任务。
    • 通过管理页面查看运行记录,点击作业列表中的记录,进一步查看stdout输出,确认计算出的Pi值大约为3.14xxxx。

补充说明: - 成功执行此教程后,您不仅掌握了在阿里云EMR上部署和运行Spark应用的基本流程,还了解了如何通过执行计划自动化作业调度。 - 记得根据实际需求和成本考虑,适时调整集群规模和作业参数,以达到最佳性能和成本效益。 - 若在执行过程中遇到任何问题,可以查看EMR控制台的帮助文档或联系阿里云客服获取支持。 - 对于长期运行的任务,建议关注集群的成本优化策略,比如利用预约实例、抢占式实例等经济型方案来降低成本。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答