开发者社区> 问答> 正文

E-MapReduce 如何快速开始?


注意:请确认您已经完成了 必选准备工作
通过本教程,用户能够基本了解E-MapReduce中集群、作业和执行计划的作用和使用方法。能够创建一个SparkPi的作业在集群上运行成功,并最后在控制台页面上看到圆周率Pi的近似计算结果。

  1. 创建集群在EMR产品控制台左侧选择集群,并点击右上创建集群
  2. 软件配置选择最新的EMR产品版本,比如EMR-3.4.1
  3. 使用默认软件配置
硬件配置
  1. 选择按量付费
  2. 若没有安全组,打开新建,并填写安全组名称
  3. 选择 Master 4核8G
  4. 选择 Core 4核8G, 两台
  5. 其他保持默认
基础配置
  1. 填写集群名称
  2. 选择日志路径保存作业日志,务必开启在集群对应的地域创建OSS的Bucket
  3. 填写密码
创建集群创建作业
  1. 在控制台左侧选择作业,并点击右上创建作业
  2. 填写作业名称
  3. 选择Spark类型
  4. 参数填写,使用如下--class org.apache.spark.examples.SparkPi --master yarn-client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /usr/lib/spark-current/examples/jars/spark-examples_2.11-2.1.1.jar 10
注意:,这个/usr/lib/spark-current/examples/jars/spark-examples_2.11-2.1.1.jar,需要根据实际集群中的 Spark 版本来修改这个jar包,比如 Spark 是2.1.1的,那么就是spark-examples_2.11-2.1.1.jar,如果是2.2.0的,那么就是spark-examples_2.11-2.2.0.jar其他保持默认,创建作业创建执行计划
  1. 确认之前创建的集群已经创建成功以后,在列表上的状态显示为空闲
  2. 在控制台左侧选择执行计划,并点击右上创建执行计划
  3. 创建时选择已有集群,并选择之前创建集群进行关联
  4. 将之前创建的作业,加入到运行队列中
  5. 填写执行计划名称
  6. 默认手动执行
  7. 创建执行计划
运行执行计划
  1. 在执行计划列表页面,点击立即运行
查看作业日志并确认结果
  1. 点击管理,进入管理页面,在下方查看运行记录
  2. 点击运行记录的右侧,查看作业列表
  3. 点击stdout能够查看到Pi的近似计算结果:3.14xxxx

展开
收起
nicenelly 2017-10-30 13:37:17 1472 0
0 条回答
写回答
取消 提交回答
问答排行榜
最热
最新

相关电子书

更多
阿里云E-MapReduce 立即下载
\"Hadoop的过去现在和未来——从阿里云梯到E-MapReduce \" 立即下载
HDFS optimization for HBase at XiaoMi 立即下载