开发者学堂课程【快速掌握阿里云 E-MapReduce:E-Mapreduce基本介绍】学习笔记与课程紧密联系,让用户快速学习知识
课程地址:https://developer.aliyun.com/learning/course/390/detail/5007
E-Mapreduce 基本介绍
内容介绍
一、E-MapReduce 如何创建集群
二、EMR是什么,产品定位
本节课主要讲解 E-MapReduce 如何创建集群、基本概念和 E-MapReduce 做什么时会给人们提供便利。
一、E-MapReduce 如何创建集群
1、首先登陆阿里云软件,接着在产品页面里直接进入到 E-MapReduce,点击管理控制台可以进入 E-MapReduce 首控平台,E-MapReduce 控制平台分为左边和右边,左边会有集群、作业、执行计划和帮助;遇到问题可以进行查找,另外在页面上方的端口位置也有帮助文档和帮助解惑的QQ群,可以加入群聊进行在线交流。
集群的位置,用户是可以直接进行创建集群的,现在可以看到xxx上次创建E-MapReduce 的集群,现在来把这个集群释放掉,点击刷新便可释放。
2、接下来创建集群,分为四个步骤
(1)第一步权限设置;
(2)第二步基本信息:
集群名称 testemr
付费类型如果是包年包月,那么是需要先付费的,而另一种付费类型是按量付费,是需要先充值一百元之后,才可以先用后付,总体来看,包月比按量付费要优惠百分之六十左右,包年比包月要优惠百分之十左右,可以根据自己的需求进行集群选择,此处选择按量付费进行演示。
运行日志需要开通oss服务,xxx可以选择先开通服务,也可以不要运行日志,如果不要运行日志,那么在管控平台运行时,此时想看日志是看不到的,或者要登陆到其他地方才能观看;要想在管控平台看到日志,需要运行日志,此时可以选择oss目录下的oss//testemr,再点击确定,运行日志的设置就此完成。
登录设置就是设置登录密码,此时的密码需要按要求进行设置,否则设置失败,按要求设置才会出现下一步。
引导操作是指用户可以自定义安装软件。
(3)第三步软件配置:
产品版本有1·0、1·1和1·2,这里选择1·2版本,每个版本都会有对应的包含版本。
集群类型有 HADOOP 和 HBASE,这里选择 HADOOP。
软件配置可以改变启动文件的大小,此处暂时不做改动。
(4)第四步硬件配置:
集群可用区指的是不同的地方可用区有好几个。
新建安全组指的是如果xxx跟其他机器之间要打通的话,一般是放在一个安全组里的,如果没有安全组,可以创建一个,有安全组说明两者之间是可以打通的。
集权节点配置是相对自由的,很多规格都是可以配置的,master 节点的硬盘类型、数据盘容量和实例数量都是可以自己调大调小的,core 节点也是如此,这样是很方便的。
完成之后会有配置购买的清单,如图:
3、再点击完成创建,集群就创建完成。
配置中有杭州和北京,杭州的oss就选杭州,北京的oss就选择北京,如要跨区域,费用会很高的,一般建议放在一起,且只能是放在一起。可以看到有创建集群失败的例子,这是因为之前并没有充值一百元,来使用按需付费是行不通的。
集群创建完成之后,还可以对集群的规模进行调整;登录到公网里面,需要之前设置的密码,里面可以查找到磁盘的容量。另外再看看扩容的情况,此时是正在扩容中,过一会便会扩容成功。
二、EMR是什么,产品定位
1、E-MapReduce 是一项 web 服务,简化了大数据处理,提供的大数据框架可以让您轻松、高速、经济、安全、稳定地处理大数据,满足如日志分析、数据仓库、商业智能、机器学习、科学模拟等业务需求。
xxx可以运行常用的计算框架(例如: Hadoop、Spark)与阿里云其它的数据存储服务(例如 oSS、RDS)中的数据进行互动。
2、开源软件
以上是一些常用的开源软件,包括 ha doop、Spark、Parquet 和 HDFS 等。
3、技术架构
技术构架指的是从底层的 ECS 开始,在 ECS 上面加上页码,EMR Agent Layer,再上面就是 HDFS 和 YARN,存储有 Hbase;还会做一些交互式的东西,比如说Mllib 和 Streaming,只要是xxx有需求,技术这边都会添加。
4、EMR的优势
(1)易用
用户只需在页面上稍加操作,xxx也为用户提供了一系列可以自由控制的技术,用户可以借鉴文档进行辅助操作或进行实践操作。
(2)成本低
①xxx提供了付费类型有两种;一是包年包月二是按量付费,按量付费一般是小型企业的选择,因为一年内不用创建很多个集群,或许只是某一天某一晚上需要创建集群一小会,如果开包年就会很浪费,大部分时间会被闲置;xxx还提供了集群可以到应用系统里去,非常方便用户的使用。
②举例:
比如某小型企业在刚开始成立初,买了几台机器,但此时的业务需求不是很高,便会导致机器的限制,事业发展期,机器低于了需要处理业务应有的数量,此时业务繁忙,便会增加机器数量,在企业稳定发展后期,需要处理的业务少于发展期的业务,此时导致一部分机器的闲置,比较浪费资源。
在弹性计算上就没有此问题的出现,基本上是买一台多一台,一台一台的增加,此时机器和业务便十分契合;就算之后业务有下降趋势,只要减少节点便可解决,这样机器与业务相契合,所产生的浪费便很少。
③EMR 成本和自建成本比较:
EMR 成本和自建成本,自建成本时,自己花了时间和精力,也很占用机器的空间,要是到了无法运行的地步,还要进行维修,之后造成机器大部分的闲置;总的来说,EMR 的集群创建成本低于自建,自建 ECS 还缺乏专业的支持。
(3)深度整合
EMR与阿里或者其他产品是经过深度整合的,可以看到与 OSS、RDS 和 ECSD 都是完美的整合在一起,也提供了很多利益和价值,经过多趟踩雷才总结出来给xxx。
(4)可靠
监控xxx集群的状态,Hadoop 也会针对云进行一系列优化,如果有问题发生,软件那边会有人第一时间帮忙解决掉。
(5)安全
RAM:主子账号可以有白名单控制,整合阿里云RAM资源权限管理系统;
VPC:构建出一个隔离或者私有的网络环境,安全地可以云上,云下互动,比如xxx可以大数据在云上操作,业务在云下操作,私有的网络环境是很安全的。
(6)专业
专业的 Hadoop 生态专家团队,任何问题都会帮用户解决。