神龙MRACC大数据计算存储加速方案架构组件与FastMR部署指南-开发者社区-阿里云

什么是神龙大数据加速引擎MRACC

2022-07-25 1212

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： MRACC

神龙大数据加速引擎MRACC是基于阿里云IaaS资源推出的大数据加速引擎，用于优化基于大数据主流计算框架搭建的大数据框架，能显著提升数据湖及数据仓库性能。配合资源管理工具FastMR快速构建大数据计算集群，全面提升研发效率。

使用MRACC加速大数据应用

一个使用MRACC加速的大数据应用的基础架构如下图所示。

其中：

资源层（阿里云IaaS资源）：在资源层使用阿里云IaaS资源，按需开启，满足大规模大数据集群的计算、存储、网络资源的弹性需求，并支持FPGA/GPU等异构计算。
性能分析（神龙大数据应用性能分析）：在分析层使用MRACC自研的可视化应用分析和资源监控工具，支持用户快速定位应用瓶颈，充分发挥资源能力。
框架层（神龙大数据加速引擎）：在框架层使用MRACC实现多框架统一加速。MRACC主要利用了ERDMA高性能网络进行了shuffle组件优化，提升分布式系统的数据交换能力；使用向量化等手段对SQL引擎进行了深度优化。并针对数据湖场景对alluxio进行了深度优化。
调度层（神龙大数据加速任务调度）：在调度层使用FastMR构建大数据计算任务并管理大规模大数据集群相关的资源，并支持ACK容器调度。
应用层（神龙大数据加速参考解决方案）：在应用层实现针对各种应用场景的大数据应用，覆盖数据湖、内容推荐、商业智能、用户画像等常见场景。由于在框架层使用MRACC实现统一加速，您只需调整少量代码即可大幅提升应用性能。

产品优势

使用MRACC加速大数据应用具有以下优势：

基于阿里云IaaS资源，资源易用性和稳定性有保障。
配合FastMR一键构建任务，缩短创建和配置资源的时间并提高节点资源利用率与弹性功能，大大降低成本。
支持多种大数据常用组件，针对阿里云IAAS做了大量软硬件优化，提升了大数据整体的性价比。

神龙大数据计算加速引擎MRACC-SPARK

MRACC-SPARK是阿里云神龙计算加速团队基于阿里云IaaS资源层研发和维护的高效SPARK加速组件，旨在实现开源兼容以及无感地加速您的大数据任务。

MRACC-SPARK支持基于开源SPARK主流模块开发的分布式大数据计算任务。
在接口层面上，MRACC-SPARK兼容了开源SPARK，对于原生的SPARK任务实现了无感的性能加速。
针对大数据任务重IO特性，MRACC-Spark在网络和存储方面结合云上的架构优势进行软硬件加速。

MRACC-SPARK（MRACC计算加速）支持的加速特性包括但不限于：

SQL引擎优化，使用缓存、文件裁剪、索引等优化手段；
网络加速，使用eRDMA进行网络加速，将shuffle阶段的数据交换运行在eRDMA网络，使得延时降低、CPU利用率大幅提升。
算子卸载，将压缩等运算卸载到异构器件

MRACC-SPARK（MRACC计算加速）的计算速度与计算成本具有显著优势。更多详细测试数据，请参见TPCXBB。

神龙大数据存储加速引擎MRACC-ALLUXIO

MRACC-ALLUXIO是阿里云神龙计算加速团队基于阿里云IaaS资源层研发和维护的高效ALLLUXIO加速组件，旨在实现开源兼容以及无感地加速您的大数据任务。

MRACC-Allxio 结合云上网络和存储方面的架构优势进行硬件加速并针对OSS等UFS实现读写优化；并且在元数据缓存管理、缓存命中率、缓存读写性能等方面进行优化。目前相对于开源Alluxio在TPCx-HS上有40%性能提升。

MRACC-ALLXIO（MRACC缓存/存储加速）支持的加速特性包括但不限于：

OSS写优化
OSS读优化
缓存命中率优化
调度优化
近存储计算异构卸载

MRACC-ALLUXIO（MRACC缓存/存储加速）的训练速度与训练成本具有显著优势。

效果量化

如何应用

收费

使用神龙大数据加速引擎MRACC不需要额外支付费用，您只需为执行计算任务过程中使用的阿里云资源付费。

如果您需要了解执行计算任务涉及到的阿里云资源的计费标准，请参见相关产品文档的计费章节。例如云服务器ECS计费、对象存储OSS计费、文件存储NAS计费。

落地（部署）

1、手动安装

下载 Alluxio

wget https://downloads.alluxio.io/downloads/files/2.8.0/alluxio-2.8.0-bin.tar.gz -P /root/alluxio

配置 Alluxio

解压alluxio压缩包

tar -xvf alluxio-2.8.0-bin.tar.gz

在主节点上创建conf/alluxio-site.properties，配置主节点主机名及挂载点：

alluxio.master.hostname=<MASTER_HOSTNAME>

alluxio.master.mount.table.root.ufs=<STORAGE_URI>

将每个Alluxio主节点的主机名附加到conf/masters中，并将每个worker节点的主机名附加到conf/worers中。

分发alluxio包到各个worker节点中

scp -r alluxio-2.8.0 root@120.24.245.139:/root

格式化

格式化日志将从Alluxio删除所有元数据。但是，存储在存储器中的数据将不受影响。

./bin/alluxio formatMasters

启动Alluxio集群

在主节点上，用以下命令启动Alluxio集群:

./bin/alluxio-start.sh all SudoMount

优势

提供内存级I/O吞吐率，同时降低具有弹性扩张特性的数据驱动型应用的成本开销。
简化云存储和对象存储接入。
简化数据管理，提供对多数据源的单点访问。
应用程序部署简易。

2、fastmr拉起

·选用vm镜像通过fastmr创建ALLUXIO集群。fastmr使用详见最佳用户指南文档。

3、容器交付

·conda环境下，跟数据湖解决方案一同创建。

兼容性

1、现有集群（使用方案1）

2、全新集群（使用方案2.3）

用户指南文档

客户自建高性能大数据集群在进行ECS 选型时，测试各种ECS集群大数据E2E性能是一件较为复杂繁琐的工作。FastMR仅需要通过简单配置，便能自动拉起spark/hadoop大数据集群，实现集群互联和组件部署及监控，并完成TPC-DS、TPCx-HS等具有较高认可度的大数据基础测试，输出该集群的大数据性能分析报告。用户可以通过性能分析报告和火焰图、资源监控等信息，助力完成大数据业务ECS性能选型。

前提条件

集群支持python 3.x环境

下载并安装FASTMR

wget -P /root https://fastmr.oss-cn-shenzhen.aliyuncs.com/yunqi_Lab/fastmr.tar.gz

cd /root && tar -zxvf fastmr.tar.gz && cd fastmr

pip3 install --upgrade pip

pip3 install wheel setuptools_rust

pip3 install --force-reinstall fastmr-1.0.0-py3-none-any.whl

配置集群

参数

属性名称	缺省	含义
model	DT	CDT：自动化创建ECS集群、部署大数据环境、完成TPC性能测试。 DT：使用现有ECS集群、部署大数据环境、完成TPC性能测试。
public_ip	/	服务器的公网ip。分为masters和workers的公网ip，每一台服务器的ip都需要填写
usr