阿里云
为了无法计算的价值
打开APP
阿里云APP内打开
学习中心> 快速掌握阿里云 E-MapReduce> 正文

快速掌握阿里云 E-MapReduce

8课时 |
2746人已学 |
免费
课程介绍

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。

本课程主要介绍阿里云 E-MapReduce 的使用方法。

E-Mapreduce基本介绍

 

内容介绍

一、E-MapReduce如何创建集群

二、EMR是什么,产品定位

 

本节课主要讲解E-MapReduce如何创建集群、基本概念和E-MapReduce做什么时会给人们提供便利。

 

一、E-MapReduce如何创建集群

1、首先登陆阿里云软件,接着在产品页面里直接进入到E-MapReduce,点击管理控制台可以进入E-MapReduce首控平台,E-MapReduce控制平台分为左边和右边,左边会有集群、作业、执行计划和帮助;遇到问题可以进行查找,另外在页面上方的端口位置也有帮助文档和帮助解惑的QQ群,可以加入群聊进行在线交流。

集群的位置,用户是可以直接进行创建集群的,现在可以看到xxx上次创建E-MapReduce的集群,现在来把这个集群释放掉,点击刷新便可释放。

2、接下来创建集群,分为四个步骤

(1)第一步权限设置;

(2)第二步基本信息:

集群名称testemr

付费类型如果是包年包月,那么是需要先付费的,而另一种付费类型是按量付费,是需要先充值一百元之后,才可以先用后付,总体来看,包月比按量付费要优惠百分之六十左右,包年比包月要优惠百分之十左右,可以根据自己的需求进行集群选择,此处选择按量付费进行演示。

运行日志需要开通oss服务,xxx可以选择先开通服务,也可以不要运行日志,如果不要运行日志,那么在管控平台运行时,此时想看日志是看不到的,或者要登陆到其他地方才能观看;要想在管控平台看到日志,需要运行日志,此时可以选择oss目录下的oss//testemr,再点击确定,运行日志的设置就此完成。

登录设置就是设置登录密码,此时的密码需要按要求进行设置,否则设置失败,按要求设置才会出现下一步。

引导操作是指用户可以自定义安装软件。

(3)第三步软件配置:

产品版本有1·0、1·1和1·2,这里选择1·2版本,每个版本都会有对应的包含版本。

集群类型有HADOOP和HBASE,这里选择HADOOP。

软件配置可以改变启动文件的大小,此处暂时不做改动。

(4)第四步硬件配置:

集群可用区指的是不同的地方可用区有好几个。

新建安全组指的是如果xxx跟其他机器之间要打通的话,一般是放在一个安全组里的,如果没有安全组,可以创建一个,有安全组说明两者之间是可以打通的。

集权节点配置是相对自由的,很多规格都是可以配置的,master节点的硬盘类型、数据盘容量和实例数量都是可以自己调大调小的,core节点也是如此,这样是很方便的。

完成之后会有配置购买的清单,如图:

3、再点击完成创建,集群就创建完成。

配置中有杭州和北京,杭州的oss就选杭州,北京的oss就选择北京,如要跨区域,费用会很高的,一般建议放在一起,且只能是放在一起。可以看到有创建集群失败的例子,这是因为之前并没有充值一百元,来使用按需付费是行不通的。

集群创建完成之后,还可以对集群的规模进行调整;登录到公网里面,需要之前设置的密码,里面可以查找到磁盘的容量。另外再看看扩容的情况,此时是正在扩容中,过一会便会扩容成功。

 

二、EMR是什么,产品定位

1、E-MapReduce是一项web服务,简化了大数据处理,提供的大数据框架可以让您轻松、高速、经济、安全、稳定地处理大数据,满足如日志分析、数据仓库、商业智能、机器学习、科学模拟等业务需求。

xxx可以运行常用的计算框架(例如: Hadoop、Spark)与阿里云其它的数据存储服务(例如oSS、RDS)中的数据进行互动。

2、开源软件

 

以上是一些常用的开源软件,包括ha doop、Spark、Parquet和HDFS等。

3、技术架构

技术构架指的是从底层的ECS开始,在ECS上面加上页码,EMR Agent Layer,再上面就是HDFS和YARN,存储有Hbase;还会做一些交互式的东西,比如说Mllib和Streaming,只要是xxx有需求,技术这边都会添加。

4、EMR的优势

(1)易用

用户只需在页面上稍加操作,xxx也为用户提供了一系列可以自由控制的技术,用户可以借鉴文档进行辅助操作或进行实践操作。

(2)成本低

①xxx提供了付费类型有两种;一是包年包月二是按量付费,按量付费一般是小型企业的选择,因为一年内不用创建很多个集群,或许只是某一天某一晚上需要创建集群一小会,如果开包年就会很浪费,大部分时间会被闲置;xxx还提供了集群可以到应用系统里去,非常方便用户的使用。

②举例:

比如某小型企业在刚开始成立初,买了几台机器,但此时的业务需求不是很高,便会导致机器的限制,事业发展期,机器低于了需要处理业务应有的数量,此时业务繁忙,便会增加机器数量,在企业稳定发展后期,需要处理的业务少于发展期的业务,此时导致一部分机器的闲置,比较浪费资源。

在弹性计算上就没有此问题的出现,基本上是买一台多一台,一台一台的增加,此时机器和业务便十分契合;就算之后业务有下降趋势,只要减少节点便可解决,这样机器与业务相契合,所产生的浪费便很少。

③EMR成本和自建成本比较:

EMR成本和自建成本,自建成本时,自己花了时间和精力,也很占用机器的空间,要是到了无法运行的地步,还要进行维修,之后造成机器大部分的闲置;总的来说,EMR的集群创建成本低于自建,自建ECS还缺乏专业的支持。

(3)深度整合