云上Hadoop之优势

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
云原生内存数据库 Tair,内存型 2GB
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
简介:

云上Hadoop的优势

如果对E-Mapreduce有兴趣,可以访问E-Mapreduce培训系列之基本介绍 这里主要是围绕E-Mapreduce这款云产品展开的。

易用

主要体现在集群的创建、销毁、扩容、缩容等方面,目前一个集群基本4分钟内开启。支持作业的编排、作业执行错误后报警等。hadoop本身提供了基本的软件,目前hue、zeppelin、ooize等虽然提供了网页版本的交互式,任务的编排;但是毕竟不是企业的服务,也没有提供高可用的保证,对于报警,跟组内其它同事的账户也难以集成。emapreduce会提供这方面的服务,不过当前一些还在实现中。

低成本

主要体现在线下购买Hadoop、运维Hadoop集群的高成本。在云上有更好的组合方式,比如把数据放在OSS中,再启动emr集群按需运行。按照客户的业务情况,对于一直hold资源的场景,可以包年包月,如果业务增长,可以弹性增加资源。对于每天几个小时的ETL,可以按需运行,数据存放到OSS中。

深度整合

跟阿里云其它产品深度整合在一起,用户不仅仅只使用大数据系统,往往需要非常多的系统配合使用

screenshot
在阿里云emr中,跟其它几乎所有的数据存储服务无缝集成在一起。

可靠

平台提供运维工具,一方面如果一些可以自动修复的场景会自动修复,比如:datanode挂了重新拉起。一些比如master压力过大,则报警给客户,再上来查询。

安全

提供VPC的方式默认隔离其它用户,提供安全组可以设置访问的策略,RAM提供父子账号满足资源权限的隔离。

专业

提供专家系统分析客户执行作业的情况,比如好还是坏。专家服务可以提供大数据解决方案的咨询及解决客户的疑难杂症。

后记

这个是本系列的最后一篇,简单讲述了云上的一些优势。
其它云上Hadoop之X系列见:

HBase技术交流社区 - 阿里官方“HBase生态+Spark社区大群”点击加入:https://dwz.cn/Fvqv066s
相关文章
|
4月前
|
分布式计算 资源调度 大数据
【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)
【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)
1279 1
|
存储 SQL 分布式计算
Hadoop 概述、Hadoop 发展历史、Hadoop 三大发行版本、Hadoop优势、Hadoop组成、Hadoop1.x、2.x、3.x区别、HDFS架构概述、大数据技术生态体系、推荐系统框架图
高可靠性、高扩展性、高效性、高容错性YARN架构概述、MapReduce架构概述、HDFS、YARN、MapReduce三者关系、1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。 2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。 3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。MapReduce将计算过程分为两个阶段:
Hadoop 概述、Hadoop 发展历史、Hadoop 三大发行版本、Hadoop优势、Hadoop组成、Hadoop1.x、2.x、3.x区别、HDFS架构概述、大数据技术生态体系、推荐系统框架图
|
SQL 存储 消息中间件
一面数据: Hadoop 迁移云上架构设计与实践
Hadoop 技术栈,一直是企业自建大数据平台的首选。随着企业数据量的指数级增长,云计算时代的到来,企业对存储的弹性、运维及 TCO 都提出了更高要求。曾经自建 Hadoop 大数据平台的企业正逐步将大数据平台迁移至云上。
757 1
一面数据: Hadoop 迁移云上架构设计与实践
|
存储 分布式计算 Hadoop
Hadoop 的优势(4高)|学习笔记
快速学习 Hadoop 的优势(4高)
171 0
|
云安全 分布式计算 资源调度
TeamTNT变种攻击Hadoop集群,云上服务对外开放需谨慎
近日,阿里云安全监测到TeamTNT变种,除了沿用之前攻击手法,最新利用了Hadoop Yarn未授权访问漏洞进行传播,同时使用多个域名和IP确保恶意文件落地,对脚本进行二进制化封装以对抗主机端检测。
561 0
TeamTNT变种攻击Hadoop集群,云上服务对外开放需谨慎
|
机器学习/深度学习 弹性计算 分布式计算
EMR:一体化Hadoop云上工作平台
Hadoop生态体系日臻完善,如何利用Hadoop生态各项技术与阿里云更好的服务于企业。EMR最新发布的工作流管理、弹性伸缩、异构计算多项功能,更好的助力用户在阿里云上利用Hadoop、Spark生态体系解决企业大数据问题。
2464 0
|
存储 分布式计算 大数据
|
存储 分布式计算 监控
|
分布式计算 资源调度 Hadoop