开发者社区 问答 正文

E-MapReduce 如何快速开始?


注意:请确认您已经完成了 必选准备工作
通过本教程,用户能够基本了解E-MapReduce中集群、作业和执行计划的作用和使用方法。能够创建一个SparkPi的作业在集群上运行成功,并最后在控制台页面上看到圆周率Pi的近似计算结果。

  1. 创建集群在EMR产品控制台左侧选择集群,并点击右上创建集群
  2. 软件配置选择最新的EMR产品版本,比如EMR-3.4.1
  3. 使用默认软件配置
硬件配置
  1. 选择按量付费
  2. 若没有安全组,打开新建,并填写安全组名称
  3. 选择 Master 4核8G
  4. 选择 Core 4核8G, 两台
  5. 其他保持默认
基础配置
  1. 填写集群名称
  2. 选择日志路径保存作业日志,务必开启在集群对应的地域创建OSS的Bucket
  3. 填写密码
创建集群创建作业
  1. 在控制台左侧选择作业,并点击右上创建作业
  2. 填写作业名称
  3. 选择Spark类型
  4. 参数填写,使用如下--class org.apache.spark.examples.SparkPi --master yarn-client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /usr/lib/spark-current/examples/jars/spark-examples_2.11-2.1.1.jar 10
注意:,这个/usr/lib/spark-current/examples/jars/spark-examples_2.11-2.1.1.jar,需要根据实际集群中的 Spark 版本来修改这个jar包,比如 Spark 是2.1.1的,那么就是spark-examples_2.11-2.1.1.jar,如果是2.2.0的,那么就是spark-examples_2.11-2.2.0.jar其他保持默认,创建作业创建执行计划
  1. 确认之前创建的集群已经创建成功以后,在列表上的状态显示为空闲
  2. 在控制台左侧选择执行计划,并点击右上创建执行计划
  3. 创建时选择已有集群,并选择之前创建集群进行关联
  4. 将之前创建的作业,加入到运行队列中
  5. 填写执行计划名称
  6. 默认手动执行
  7. 创建执行计划
运行执行计划
  1. 在执行计划列表页面,点击立即运行
查看作业日志并确认结果
  1. 点击管理,进入管理页面,在下方查看运行记录
  2. 点击运行记录的右侧,查看作业列表
  3. 点击stdout能够查看到Pi的近似计算结果:3.14xxxx

展开
收起
nicenelly 2017-10-30 13:37:17 1497 分享 版权
阿里云 AI 助理回答

您已经成功地了解了如何在阿里云E-MapReduce(EMR)平台上创建集群、作业和执行计划,并运行了一个SparkPi示例来近似计算圆周率Pi。下面是对您操作步骤的简要回顾及补充说明:

  1. 创建集群:

    • 选择最新的EMR版本,如EMR-3.4.1,使用默认软件配置。
    • 硬件配置方面,选择了按量付费模式,为Master节点配置了4核8G内存,Core节点两台各4核8G内存,保持其他设置为默认。
    • 指定了集群名称,选择了日志保存路径(通过OSS Bucket),并确保开启保存作业日志功能,这对于后续监控和调试非常重要。
  2. 创建作业:

    • 选择作业类型为Spark,填写作业名称。
    • 在参数中输入了SparkPi运行所需的命令行参数,包括指定主类、执行模式、资源分配等。特别注意的是,根据实际集群中的Spark版本调整jar包路径和名称。
    • 创建作业后,它会出现在作业列表中,等待被调度执行。
  3. 创建执行计划:

    • 确认集群状态为空闲后,创建执行计划并关联之前创建的集群。
    • 将已创建的SparkPi作业添加到执行计划的运行队列中,设定执行计划名称,并选择手动执行模式。
  4. 运行执行计划与查看结果:

    • 通过执行计划列表页面启动执行计划。
    • 进入管理页面,查看运行记录,点击具体的作业记录,通过stdout输出可以查看到SparkPi作业的执行结果,即圆周率Pi的一个近似值。

补充建议: - 监控与优化: 利用EMR的监控功能,观察作业运行时的资源使用情况,如CPU、内存利用率等,根据实际情况调整资源配置以优化性能或降低成本。 - 日志分析: 当作业执行出现问题时,详细日志是排查问题的关键。EMR的日志系统可以帮助快速定位错误原因。 - 安全组配置: 确保安全组规则允许必要的网络访问,比如HDFS、YARN服务的访问,以及可能的外部数据源访问权限。 - 成本控制: 注意按量付费模式下的费用监控,适时释放不再使用的集群以避免不必要的费用支出。 - 版本兼容性: 在选择Spark作业的jar包时,务必确认其与集群中安装的Spark版本兼容,以免因版本不匹配导致作业执行失败。

通过以上步骤,您不仅完成了基本的EMR平台操作实践,还对大数据处理任务的部署和管理有了初步认识。随着实践经验的积累,您可以进一步探索更复杂的作业配置和优化策略。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答