阿里云 E-MapReduce产品优势及使用场景

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。

产品优势:

与自建集群相比,E-MapReduce 能给您提供相对方便可控的手段,从各方面管理自己的集群。此外,它还具有以下优势:

  • 易用性

您可简单选择所需 ECS 机型(CPU、内存)与磁盘,并选择所需的软件,进行自动化部署。

您可以根据自己或数据源所处的地理位置申请对应位置的集群资源。目前阿里云 ECS 支持的区域包括华东 1、华东 2、华北 1、华北 2、华南 1、新加坡、香港、美东 1、美西 1 等区域。E-MapReduce 支持的区域包括华北 2、华东 1、华东 2 和华南 1,后续会陆续开放到阿里云 ECS 支持的所有区域。

  • 低价

您可以按需创建集群,即离线作业运行结束就可以释放集群,还可以在需要时动态地增加节点。

  • 深度整合

与阿里云其它产品如 OSS、MNS、RDS、MaxCompute 等深度整合,使其可作为 E-MapReduce 产品中 Hadoop/Spark 计算引擎的输入源或者输出目的地。

  • 安全

E-MapReduce 整合了阿里云 RAM 资源权限管理系统,通过主子账号对服务权限进行隔离。

使用场景:

E-MapReduce 集群适用场景很多。简单说来,Hadoop ecosystem 以及 Spark 能够支持的场景,E-MapReduce 都可以支持。因为 E-MapReduce 本质就是 Hadoop 和 Spark 的集群服务,您完全可以将其使用的阿里云 ECS 主机视为自己专属的物理主机。以下示例列出了 E-MapReduce 使用的经典场景。

  • 批量数据处理

offline

  • Ad hoc 数据分析查询

adhoc

  • 海量数据在线服务

online

  • 流式数据处理

streaming

E-MapReduce 的用途:

当用户想要使用 Hadoop、Spark 等分布式处理系统的时候,通常需要经历如下的步骤:

  1. 评估业务特点
  2. 选择机器类型
  3. 采购机器
  4. 准备硬件环境
  5. 安装操作系统
  6. 部署 Hadoop 和 Spark 等 app
  7. 启动集群
  8. 编写应用程序
  9. 运行作业
  10. 获取数据等一系列的步骤

在这些流程中,真正跟用户的应用逻辑相关的是从第8步才开始,第1-7步的各项工作都是前期的准备工作,通常这个前期工作都非常冗长繁琐。而 E-MapReduce 提供了集群管理工具的集成解决方案,如主机选型、环境部署、集群搭建、集群配置、集群运行、作业配置、作业运行、集群管理、性能监控等。

通过使用 E-MapReduce,用户可以从集群构建各种繁琐的采购、准备、运维等工作中解放出来,只关心自己应用程序的处理逻辑即可。此外,E-MapReduce 还给用户提供了灵活的搭配组合方式,用户可以根据自己的业务特点选择不同的集群服务。例如,如果用户的需求是对数据进行日常统计和简单的批量运算,则可以只选择在 E-MapReduce 中运行 Hadoop 服务;而如果用户还需要流式计算和实时计算的需求,则可以在 Hadoop 服务基础上再加入 Spark 服务。

E-MapReduce 的组成:

E-MapReduce 最核心也是用户直接面对的组件是集群。一个 E-MapReduce 集群是由一个或多个阿里云 ECS instance 组成的 Hadoop 和 Spark 集群。以 Hadoop 为例,在每一个 ECS instance 上,通常都运行了一些 daemon 进程(如 namenode、datanode、resoucemanager 和 nodemanager),这些 daemon 进程就组成了 Hadoop 集群。运行 namenode 和 resourcemanager 的节点被称为 master 节点,而运行 datanode 和 nodemanager 的节点被称为 slave 节点。

例如,下图表示了一个包含1个 master 节点和3个 slave 节点的 E-MapReduce 集群:

示例

产品架构:

structure

从上图可以看出,E-MapReduce 集群基于 Hadoop 的生态环境来搭建,同时可以跟阿里云的对象存储服务(OSS),云数据库(RDS)等云服务进行无缝数据交换,方便您将数据在多个系统之间进行共享和传输,以满足不同业务类型的访问需要。

版权声明:本文由 数控等离子切割机http://www.hycsk.com 整理编辑!本文章来源于网络,如有侵权,请联系云栖社区,欢迎分享本文,转载请保留出处!

相关实践学习
数据湖构建DLF快速入门
本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
24天前
|
弹性计算 安全 关系型数据库
阿里云产品在技术探索中的实践和思考
本文讲述了作者在使用阿里云产品进行技术探索的实践中,如何借助ECS、RDS、OSS、SLB和VPC构建高可用分布式系统。从最初的虚拟主机服务到全面的云服务,阿里云帮助解决了性能、负载均衡、数据存储和网络安全等问题。在面对性能优化、成本控制和安全管理的挑战时,作者通过监控、调整和采用安全措施确保了系统的高效运行。未来,作者将继续在云计算领域探索,利用AI、大数据及物联网技术驱动业务创新和增长。
70 0
|
3天前
|
弹性计算 Prometheus 监控
阿里云可观测 2024 年 5 月产品动态
阿里云可观测 2024 年 5 月产品动态。
|
3天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 API 网关 2024 年 05 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
|
9天前
|
文字识别 算法
印刷文字识别产品使用合集之开通了阿里云发票识别验真功能,其他人可以调用我的这个接口吗
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
3天前
|
API
阿里云微服务引擎及 API 网关 2024 年 5 月产品动态
阿里云微服务引擎及 API 网关 2024 年 5 月产品动态。
阿里云微服务引擎及 API 网关 2024 年 5 月产品动态
|
3天前
|
人工智能 监控 Cloud Native
多款可观测产品全面升级丨阿里云云原生 5 月产品月报
多款可观测产品全面升级丨阿里云云原生 5 月产品月报。
|
6天前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何将CSV文件从阿里云OSS同步到ODPS表,并且使用列作为表分区
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
DataWorks产品使用合集之如何将CSV文件从阿里云OSS同步到ODPS表,并且使用列作为表分区
|
6天前
|
机器学习/深度学习 弹性计算 前端开发
阿里云服务器ECS计算型c8i使用场景说明,可以用来哪些?
阿里云新推CIPU架构的计算型c8i实例,搭载Intel® Xeon®最新处理器,主频2.7 GHz起,全核睿频3.2 GHz,确保强大计算与I/O性能。适用于机器学习、数据分析、游戏服务器等场景。欲知详细配置及报价
17 0
|
7天前
|
JSON DataWorks 监控
DataWorks产品使用合集之如何实现数据迁移(从阿里云一个账号迁移到另一个账号)
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
19 1
|
8天前
|
文字识别 API
印刷文字识别产品使用合集之如何创建RAM用户和阿里云账号的访问密钥
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。