导读:阿里云 E-MapReduce全面支持Alluxio,Alluxio作为大数据领域存储层解决方案,将大幅提升EMR产品服务能力。Alluxio可以对数据源进行性能优化和缓存加速,让计算层和存储层能够轻装上阵,独立优化,又能保持密切依赖关系。下面将为大家分享阿里云 E-MapReduce Alluxio的实践经验与技术方案。
本文将从三个方面进行介绍:
1、什么是Alluxio
2、阿里云E-MapReduce
3、如何在阿里云E-MapReduce上使用Alluxio
什么是Alluxio?
Alluxio位于数据驱动框架或应用(例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等)和各种持久化存储系统(例如HDFS和阿里云OSS)之间,使得上层的计算应用可以通过统一的客户端API和全局命名空间访问包括HDFS和OSS在内的持久化存储系统。
具体说来,Alluxio提供一层文件系统的抽象给计算层。这层抽象之上的计算只需要和Alluxio交互来访问数据;而这层抽象之下可以同时对接多个不同的持久化存储(比如一个OSS加上一个HDFS部署),而这层抽象本身又是由部署在靠近计算的内存级Alluxio存储系统来实现。如下图:
Alluxio 通过统一命名空间、多层级缓存及服务器端API转换等三个关键领域的创新结合在一起,统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易被访问,同时使得应用程序能够通过一个公共接口连接到许多存储系统。
Alluxio项目源自 UC Berkeley 的 AMPLab,在伯克利数据分析栈 (Berkeley Data Analytics Stack, BDAS) 中扮演数据访问层的角色。 到今天为止,Alluxio 已经在数百家机构的生产中进行了部署,最大部署运行的集群规模超过 1500 个节点。
Alluxio的典型应用场景
1、计算层需要反复频繁的访问远程(比如在阿里云或跨机房)的数据;
2、计算层需要同时访问多个独立的持久化数据源(比如同时访问OSS和HDFS中的数据);
3、多个独立的大数据应用(比如不同的Spark Job)需要高速有效的共享数据。
Alluxio的主要优势
Alluxio通过简化应用程序访问其数据的方式(无论数据是什么格式或位置),帮助克服从数据中提取信息所面临的困难。Alluxio 的优势如下:
1、分布式缓存,内存速度 I/O:
Alluxio 能够用作分布式共享缓存服务,这样与 Alluxio 通信的计算应用程序可以透明地缓存频繁访问的数据(尤其是从远程位置),以提供内存级 I/O 吞吐率。此外,Alluxio的层次化存储机制能够充分利用内存、固态硬盘或者磁盘,降低具有弹性扩张特性的数据驱动型应用的成本开销。
2、简化云存储和对象存储接入:
在云存储和对象存储系统上进行文件系统操作(如列出目录和重命名)会导致性能开销。当访问云存储中的数据时,应用程序没有节点级数据本地性或跨应用程序缓存。将 Alluxio 与云存储或对象存储一起部署可以缓解这些问题,这样将从 Alluxio 中检索读取数据,而不是从底层云存储或对象存储中检索读取。
3、简化数据管理:
Alluxio 提供对多数据源的单点访问。除了连接不同类型的数据源之外,Alluxio 还允许用户同时连接同一存储系统的不同版本,如多个版本的 HDFS,并且无需复杂的系统配置和管理。
阿里云 E-MapReduce
阿里云E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR构建于云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿里云OSS和RDS等)进行数据传输。E-MapReduce的产品架构如下图所示。
阿里云 E-MapReduce连续两年打破 TPC-DS 纪录
2020年4月26日,大数据领域权威竞赛TPC-DS公布了最新结果,阿里云作为全球唯一入选的云计算公司获得第一。去年阿里云 EMR 首次打破该竞赛纪录,成为全球首个通过 TPC 认证的公共云产品。今年在这一基础上,EMR 的计算速度提升了 2.2 倍,连续两年打破了这项大数据领域最难竞赛的世界纪录。
与自建集群相比,E-MapReduce可以为您提供相对方便可控的手段,从各方面管理自己的集群。适用多种使用场景,同时支持Hadoop ecosystem和Spark能够支持的所有场景。如:批量数据处理、Ad hoc数据分析查询、海量数据在线服务、流式数据处理等。
阿里云 E-MapReduce的主要优势
1、易用性高:您可简单选择所需ECS机型与磁盘,并选择所需的软件,进行自动化部署;
2、弹性伸缩:借助EMR,您可以按业务曲线或监控指标情况,手动或自动伸缩托管的集群规模,实现资源利用的最大化;
3、节约成本:支持按量计费与包年包月多种计费模式,借助弹性能力,调整集群规模,按需付费;
4、深度整合:EMR与阿里云其它产品(例如,MaxCompute、PAI、TableStore、SLS、阿里云 HDFS、OSS、MNS及RDS等)进行了深度整合。支持以这些产品作为Hadoop或Spark计算引擎的输入源或者输出目的地;
5、安全安靠:EMR整合了阿里云RAM资源权限管理系统,通过主账号和子账号对服务权限进行隔离。
如何在阿里云 E-MapReduce上使用Alluxio
Alluxio作为阿里云大数据生态中的重要一环,能够与阿里云生态体系的众多产品深度融合,产生化学反应,提升大数据平台整体效率。
Alluxio可以对远端数据源做缓存,比如阿里云OSS、HDFS等,以及阿里云其他存储产品。统一的 namespace,把多个数据源/多个集群,统一挂载到 alluxio:// 名字空间下面,简化 EMR 各种引擎的访问。云上云下打通,在云上用 Alluxio 挂载打通对云下HDFS的访问。
总之,Alluxio可以为大数据应用提供一个数量级的加速,同时它还提供了通用的数据访问接口。对于底层存储系统,Alluxio连接了大数据应用和传统存储系统之间的间隔,并且重新定义了一组面向数据使用的工作负载程序。
欢迎遇到计算层的反复远程访问、多个数据源同时访问、应用需要都高速共享数据及面临严重的计算资源压力等问题的朋友们,对阿里云 E-MapReduce Alluxio进行测试,实现对数据价值的快速发掘。
此外,阿里云数据湖构建(Data Lake Formation,DLF)火热公测中,全托管、快速帮助用户构建云上数据湖服务,这次Alluxio 的引入,助力阿里云数据湖架构完成最后一块拼图,需要了解的朋友们,可以快速联系。
欢迎试用
对阿里云 E-MapReduce 感兴趣的朋友可以申请测试,测试加入钉钉群(如下),并@黯灭