E-Mapreduce 基本介绍|学习笔记

本文涉及的产品
对象存储 OSS,20GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
对象存储 OSS,内容安全 1000次 1年
简介: 快速学习 E-Mapreduce 基本介绍

开发者学堂课程【快速掌握阿里云 E-MapReduceE-Mapreduce基本介绍】学习笔记与课程紧密联系,让用户快速学习知识

课程地址https://developer.aliyun.com/learning/course/390/detail/5007


E-Mapreduce 基本介绍

 

内容介绍

一、E-MapReduce 如何创建集群

二、EMR是什么,产品定位

 

本节课主要讲解 E-MapReduce 如何创建集群、基本概念和 E-MapReduce 做什么时会给人们提供便利。

 

一、E-MapReduce 如何创建集群

1、首先登陆阿里云软件,接着在产品页面直接进入到 E-MapReduce,点击管理控制台可以进入 E-MapReduce 首控平台,E-MapReduce 控制平台分为左边和右边,左边会有集群、作业、执行计划和帮助;遇到问题可以进行查找,另外在页面上方的端口位置也有帮助文档和帮助解惑的QQ群,可以加入群聊进行在线交流。

集群的位置,用户是可以直接进行创建集群的,现在可以看到xxx上次创建E-MapReduce 的集群,现在来把这个集群释放掉,点击刷新便可释放。

2、接下来创建集群,分为四个步骤

(1)第一步权限设置;

(2)第二步基本信息:

集群名称 testemr

付费类型如果是包年包月,那么是需要先付费的,另一种付费类型是按量付费,是需要先一百元之后,才可以先用后付,总体来看,包月比按量付费要优惠百分之六十左右,包年比包月要优惠百分之十左右,可以根据自己的需求进行集群选择,此处选择按量付费进行演示。

运行日志需要开通oss服务,xxx可以选择先开通服务,也可以不要运行日志,如果不要运行日志,那么在管控平台运行时,此时想看日志是看不到的,或者要登陆到其他地方才能观看;要想在管控平台看到日志,需要运行日志,此时可以选择oss目录下的oss//testemr,再点击确定,运行日志的设置就此完成。

登录设置就是设置登录密码,此时的密码需要按要求进行设置,否则设置失败,按要求设置才会出现下一步。

引导操作是指用户可以自定义安装软件。

(3)第三步软件配置:

产品版本有1·0、1·1和1·2,这里选择1·2版本,每个版本都会有对应的包含版本。

集群类型有 HADOOP 和 HBASE,这里选择 HADOOP

软件配置可以改变启动文件的大小,此处暂时不做改动。

(4第四步硬件配置:

集群可用区指的是不同的地方可用区有好几个。

新建安全组指的是如果xxx跟其他机器之间要打通的话,一般是放在一个安全组里的,如果没有安全组,可以创建一个,有安全组说明两者之间是可以打通的。

集权节点配置是相对自由的,很多规格都是可以配置的,master 节点的硬盘类型、数据盘容量和实例数量都是可以自己调大调小的,core 节点也是如此,这样是很方便的。

完成之后会有配置购买的清单,如图:

3、再点击完成创建,集群就创建完成。

配置中有杭州和北京,杭州的oss就选杭州,北京的oss就选择北京,如要跨区域,费用很高的,一般建议放在一起,且只能是放在一起。可以看到有创建集群失败的例子,这是因为之前并没有充值一百元,来使用按需付费是行不通的。

集群创建完成之后,还可以对集群的规模进行调整;登录到公网里面,需要之前设置的密码,里面可以查找到磁盘的容量。另外再看看扩容的情况,此时是正在扩容中,过一会便会扩容成功。

 

二、EMR是什么,产品定位

1E-MapReduce 是一项 web 服务,简化了大数据处理,提供的大数据框架可以让您轻松、高速、经济、安全、稳定地处理大数据,满足如日志分析、数据仓库、商业智能、机器学习、科学模拟等业务需求。

xxx可以运行常用的计算框架(例如: Hadoop、Spark)与阿里云其它的数据存储服务(例如 oSS、RDS)中的数据进行互动。

2、开源软件

image.png

以上是一些常用的开源软件,包括 ha doopSpark、Parquet 和 HDFS 等。

3、技术架构

image.png

技术构架指的是从底层的 ECS 开始,在 ECS 上面加上页码,EMR Agent Layer,再上面就是 HDFS 和 YARN,存储有 Hbase;还会做一些交互式的东西,比如说Mllib 和 Streaming,只要是xxx有需求,技术这边都会添加。

4、EMR的优势

(1)易用

用户只需在页面上稍加操作,xxx也为用户提供了一系列可以自由控制的技术,用户可以借鉴文档进行辅助操作或进行实践操作。

(2)成本低

xxx提供了付费类型有两种;一是包年包月二是按量付费,按量付费一般是小型企业的选择,因为一年内不用创建很多个集群,或许只是某一天某一晚上需要创建集群一小会,如果开包年就会很浪费,大部分时间会被闲置;xxx还提供了集群可以到应用系统里去,非常方便用户的使用。

举例:

比如某小型企业在刚开始成立初,买了几台机器,但此时的业务需求不是很高,便会导致机器的限制,事业发展期,机器低于了需要处理业务应有的数量,此时业务繁忙,便会增加机器数量,在企业稳定发展后期,需要处理的业务少于发展期的业务,此时导致一部分机器的闲置,比较浪费资源。

在弹性计算上就没有此问题的出现,基本上是买一台多一台,一台一台的增加,此时机器和业务便十分契合;就算之后业务有下降趋势,只要减少节点便可解决,这样机器与业务相契合,所产生的浪费便很少。

EMR 成本和自建成本比较:

image.png

EMR 成本和自建成本,自建成本时,自己花了时间和精力,也很占用机器的空间,要是到了无法运行的地步,还要进行维修,之后造成机器大部分的闲置;总的来说,EMR 的集群创建成本低于自建,自建 ECS 还缺乏专业的支持。

(3)深度整合

image.png

EMR与阿里或者其他产品是经过深度整合的,可以看到与 OSS、RDS 和 ECSD 都是完美的整合在一起,也提供了很多利益和价值,经过多趟踩雷才总结出来给xxx。

(4)可靠

监控xxx集群的状态,Hadoop 也会针对云进行一系列优化,如果有问题发生,软件那边会有人第一时间帮忙解决掉。

(5)安全

RAM:主子账号可以有白名单控制,整合阿里云RAM资源权限管理系统

VPC:构建出一个隔离或者私有的网络环境,安全地可以云上,云下互动,比如xxx可以大数据在云上操作,业务在云下操作,私有的网络环境是很安全的。

(6)专业

专业的 Hadoop 生态专家团队,任何问题都会帮用户解决。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
SQL 分布式计算 并行计算
Hadoop学习笔记(三)之MapReduce
Hadoop学习笔记(三)之MapReduce
|
7月前
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
563 0
|
存储 SQL 弹性计算
视频-《 E-MapReduce 组件介绍》|学习笔记(四)
快速学习视频-《 E-MapReduce 组件介绍》
105 0
视频-《 E-MapReduce 组件介绍》|学习笔记(四)
|
存储 分布式计算 运维
视频-《E-MapReduce 组件介绍》|学习笔记(一)
快速学习视频-《E-MapReduce组件介绍》
126 0
视频-《E-MapReduce 组件介绍》|学习笔记(一)
|
SQL 弹性计算 分布式计算
视频-《E-MapReduce》|学习笔记(四)
快速学习视频-《E-MapReduce》
202 0
视频-《E-MapReduce》|学习笔记(四)
|
分布式计算 数据挖掘 Java
MapReduce 基础模型|学习笔记
快速学习 MapReduce 基础模型
219 0
MapReduce 基础模型|学习笔记
|
SQL 分布式计算 Hadoop
Azkaban--使用实战--hadoop 调度(hdfs、mapreduce) | 学习笔记
快速学习 Azkaban--使用实战--hadoop 调度(hdfs、mapreduce)
728 0
Azkaban--使用实战--hadoop 调度(hdfs、mapreduce) | 学习笔记
|
分布式计算 API 调度
Apache Oozie-- 实战操作--集成 hue& 调度 mapreduce 程序|学习笔记
快速学习Apache Oozie-- 实战操作--集成 hue& 调度 mapreduce 程序
Apache Oozie-- 实战操作--集成 hue& 调度 mapreduce 程序|学习笔记
|
分布式计算 Hadoop Java
Apache Oozie-- 实战操作--调度 mapreduce 程序|学习笔记
快速学习 Apache Oozie-- 实战操作--调度 mapreduce 程序
Apache Oozie-- 实战操作--调度 mapreduce 程序|学习笔记
|
分布式计算 数据可视化 大数据
集成 Oozie 服务&调度 Mapreduce 程序 | 学习笔记
快速学习 集成 Oozie 服务&调度 Mapreduce 程序
131 0
集成 Oozie 服务&调度 Mapreduce 程序 | 学习笔记

热门文章

最新文章