阿里云E-MapReduce全面支持Alluxio,为大数据全“源”加速

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 导读:阿里云 E-MapReduce全面支持Alluxio,Alluxio作为大数据领域存储层解决方案,将大幅提升EMR产品服务能力。Alluxio可以对数据源进行性能优化和缓存加速,让计算层和存储层能够轻装上阵,独立优化,又能保持密切依赖关系。下面将为大家分享阿里云 E-MapReduce Alluxio的实践经验与技术方案。

导读:阿里云 E-MapReduce全面支持Alluxio,Alluxio作为大数据领域存储层解决方案,将大幅提升EMR产品服务能力。Alluxio可以对数据源进行性能优化和缓存加速,让计算层和存储层能够轻装上阵,独立优化,又能保持密切依赖关系。下面将为大家分享阿里云 E-MapReduce Alluxio的实践经验与技术方案。

本文将从三个方面进行介绍:
1、什么是Alluxio
2、阿里云E-MapReduce
3、如何在阿里云E-MapReduce上使用Alluxio

什么是Alluxio?

Alluxio位于数据驱动框架或应用(例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等)和各种持久化存储系统(例如HDFS和阿里云OSS)之间,使得上层的计算应用可以通过统一的客户端API和全局命名空间访问包括HDFS和OSS在内的持久化存储系统。
具体说来,Alluxio提供一层文件系统的抽象给计算层。这层抽象之上的计算只需要和Alluxio交互来访问数据;而这层抽象之下可以同时对接多个不同的持久化存储(比如一个OSS加上一个HDFS部署),而这层抽象本身又是由部署在靠近计算的内存级Alluxio存储系统来实现。如下图:

alluxio架构图.png

Alluxio 通过统一命名空间、多层级缓存及服务器端API转换等三个关键领域的创新结合在一起,统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易被访问,同时使得应用程序能够通过一个公共接口连接到许多存储系统。
Alluxio项目源自 UC Berkeley 的 AMPLab,在伯克利数据分析栈 (Berkeley Data Analytics Stack, BDAS) 中扮演数据访问层的角色。 到今天为止,Alluxio 已经在数百家机构的生产中进行了部署,最大部署运行的集群规模超过 1500 个节点。

Alluxio的典型应用场景

1、计算层需要反复频繁的访问远程(比如在阿里云或跨机房)的数据;
2、计算层需要同时访问多个独立的持久化数据源(比如同时访问OSS和HDFS中的数据);
3、多个独立的大数据应用(比如不同的Spark Job)需要高速有效的共享数据。

Alluxio的主要优势

Alluxio通过简化应用程序访问其数据的方式(无论数据是什么格式或位置),帮助克服从数据中提取信息所面临的困难。Alluxio 的优势如下:
1、分布式缓存,内存速度 I/O:
Alluxio 能够用作分布式共享缓存服务,这样与 Alluxio 通信的计算应用程序可以透明地缓存频繁访问的数据(尤其是从远程位置),以提供内存级 I/O 吞吐率。此外,Alluxio的层次化存储机制能够充分利用内存、固态硬盘或者磁盘,降低具有弹性扩张特性的数据驱动型应用的成本开销。
2、简化云存储和对象存储接入:
在云存储和对象存储系统上进行文件系统操作(如列出目录和重命名)会导致性能开销。当访问云存储中的数据时,应用程序没有节点级数据本地性或跨应用程序缓存。将 Alluxio 与云存储或对象存储一起部署可以缓解这些问题,这样将从 Alluxio 中检索读取数据,而不是从底层云存储或对象存储中检索读取。
3、简化数据管理:
Alluxio 提供对多数据源的单点访问。除了连接不同类型的数据源之外,Alluxio 还允许用户同时连接同一存储系统的不同版本,如多个版本的 HDFS,并且无需复杂的系统配置和管理。

阿里云 E-MapReduce

阿里云E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR构建于云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿里云OSS和RDS等)进行数据传输。E-MapReduce的产品架构如下图所示。
EMR产品架构图.png

阿里云 E-MapReduce连续两年打破 TPC-DS 纪录

2020年4月26日,大数据领域权威竞赛TPC-DS公布了最新结果,阿里云作为全球唯一入选的云计算公司获得第一。去年阿里云 EMR 首次打破该竞赛纪录,成为全球首个通过 TPC 认证的公共云产品。今年在这一基础上,EMR 的计算速度提升了 2.2 倍,连续两年打破了这项大数据领域最难竞赛的世界纪录。
与自建集群相比,E-MapReduce可以为您提供相对方便可控的手段,从各方面管理自己的集群。适用多种使用场景,同时支持Hadoop ecosystem和Spark能够支持的所有场景。如:批量数据处理、Ad hoc数据分析查询、海量数据在线服务、流式数据处理等。

阿里云 E-MapReduce的主要优势

1、易用性高:您可简单选择所需ECS机型与磁盘,并选择所需的软件,进行自动化部署;
2、弹性伸缩:借助EMR,您可以按业务曲线或监控指标情况,手动或自动伸缩托管的集群规模,实现资源利用的最大化;
3、节约成本:支持按量计费与包年包月多种计费模式,借助弹性能力,调整集群规模,按需付费;
4、深度整合:EMR与阿里云其它产品(例如,MaxCompute、PAI、TableStore、SLS、阿里云 HDFS、OSS、MNS及RDS等)进行了深度整合。支持以这些产品作为Hadoop或Spark计算引擎的输入源或者输出目的地;
5、安全安靠:EMR整合了阿里云RAM资源权限管理系统,通过主账号和子账号对服务权限进行隔离。

如何在阿里云 E-MapReduce上使用Alluxio

Alluxio作为阿里云大数据生态中的重要一环,能够与阿里云生态体系的众多产品深度融合,产生化学反应,提升大数据平台整体效率。
Alluxio可以对远端数据源做缓存,比如阿里云OSS、HDFS等,以及阿里云其他存储产品。统一的 namespace,把多个数据源/多个集群,统一挂载到 alluxio:// 名字空间下面,简化 EMR 各种引擎的访问。云上云下打通,在云上用 Alluxio 挂载打通对云下HDFS的访问。
总之,Alluxio可以为大数据应用提供一个数量级的加速,同时它还提供了通用的数据访问接口。对于底层存储系统,Alluxio连接了大数据应用和传统存储系统之间的间隔,并且重新定义了一组面向数据使用的工作负载程序。
欢迎遇到计算层的反复远程访问、多个数据源同时访问、应用需要都高速共享数据及面临严重的计算资源压力等问题的朋友们,对阿里云 E-MapReduce Alluxio进行测试,实现对数据价值的快速发掘。
此外,阿里云数据湖构建(Data Lake Formation,DLF)火热公测中,全托管、快速帮助用户构建云上数据湖服务,这次Alluxio 的引入,助力阿里云数据湖架构完成最后一块拼图,需要了解的朋友们,可以快速联系。

欢迎试用

对阿里云 E-MapReduce 感兴趣的朋友可以申请测试,测试加入钉钉群(如下),并@黯灭
7040e85a59d94b16ba58a81a61713246.png

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
目录
相关文章
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
62 2
|
7天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
9天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
2月前
|
人工智能 分布式计算 DataWorks
连续四年!阿里云领跑中国公有云大数据平台
近日,国际数据公司(IDC)发布《中国大数据平台市场份额,2023:数智融合时代的真正到来》报告——2023年中国大数据平台公有云服务市场规模达72.2亿元人民币,其中阿里巴巴市场份额保持领先,占比达40.2%,连续四年排名第一。
190 12
|
2月前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
295 17
|
2月前
|
SQL 人工智能 大数据
阿里云牵头起草!首个大数据批流融合国家标准发布
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
83 7
|
2月前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
|
2月前
|
存储 SQL 分布式计算
Java连接阿里云MaxCompute例
要使用Java连接阿里云MaxCompute数据库,首先需在项目中添加MaxCompute JDBC驱动依赖,推荐通过Maven管理。避免在代码中直接写入AccessKey,应使用环境变量或配置文件安全存储。示例代码展示了如何注册驱动、建立连接及执行SQL查询。建议使用RAM用户提升安全性,并根据需要配置时区和公网访问权限。具体步骤和注意事项请参考阿里云官方文档。
|
2月前
|
机器学习/深度学习 数据可视化 大数据
阿里云大数据的应用示例
阿里云大数据应用平台为企业提供高效数据处理与业务洞察工具,涵盖Quick BI、DataV及PAI等核心产品。DT203课程通过实践教学,帮助学员掌握数据可视化、报表设计及机器学习分析技能,提升数据驱动决策能力。Quick BI简化复杂数据分析,DataV打造震撼可视化大屏,PAI支持全面的数据挖掘与算法应用。课程面向CSP、ISV及数据工程师等专业人士,为期两天,结合面授与实验,助力企业加速数字化转型。完成课程后,学员将熟练使用阿里云工具进行数据处理与分析。[了解更多](https://edu.aliyun.com/training/DT203)
|
3月前
|
分布式计算 大数据 Hadoop
MapReduce:大数据处理的基石
【8月更文挑战第31天】
110 0