神龙大数据加速引擎MRACC是基于阿里云IaaS资源推出的大数据加速引擎,用于优化基于大数据主流计算框架搭建的大数据框架,能显著提升数据湖及数据仓库性能。配合资源管理工具FastMR快速构建大数据计算集群,全面提升研发效率。
使用MRACC加速大数据应用
一个使用MRACC加速的大数据应用的基础架构如下图所示。
其中:
- 资源层(阿里云IaaS资源):在资源层使用阿里云IaaS资源,按需开启,满足大规模大数据集群的计算、存储、网络资源的弹性需求,并支持FPGA/GPU等异构计算。
- 性能分析(神龙大数据应用性能分析):在分析层使用MRACC自研的可视化应用分析和资源监控工具,支持用户快速定位应用瓶颈,充分发挥资源能力。
- 框架层(神龙大数据加速引擎):在框架层使用MRACC实现多框架统一加速。MRACC主要利用了ERDMA高性能网络进行了shuffle组件优化,提升分布式系统的数据交换能力;使用向量化等手段对SQL引擎进行了深度优化。并针对数据湖场景对alluxio进行了深度优化。
- 调度层(神龙大数据加速任务调度):在调度层使用FastMR构建大数据计算任务并管理大规模大数据集群相关的资源,并支持ACK容器调度。
- 应用层(神龙大数据加速参考解决方案):在应用层实现针对各种应用场景的大数据应用,覆盖数据湖、内容推荐、商业智能、用户画像等常见场景。由于在框架层使用MRACC实现统一加速,您只需调整少量代码即可大幅提升应用性能。
产品优势
使用MRACC加速大数据应用具有以下优势:
- 基于阿里云IaaS资源,资源易用性和稳定性有保障。
- 配合FastMR一键构建任务,缩短创建和配置资源的时间并提高节点资源利用率与弹性功能,大大降低成本。
- 支持多种大数据常用组件,针对阿里云IAAS做了大量软硬件优化,提升了大数据整体的性价比。
神龙大数据计算加速引擎MRACC-SPARK
MRACC-SPARK是阿里云神龙计算加速团队基于阿里云IaaS资源层研发和维护的高效SPARK加速组件,旨在实现开源兼容以及无感地加速您的大数据任务。
- MRACC-SPARK支持基于开源SPARK主流模块开发的分布式大数据计算任务。
- 在接口层面上,MRACC-SPARK兼容了开源SPARK,对于原生的SPARK任务实现了无感的性能加速。
- 针对大数据任务重IO特性,MRACC-Spark在网络和存储方面结合云上的架构优势进行软硬件加速。
MRACC-SPARK(MRACC计算加速)支持的加速特性包括但不限于:
- SQL引擎优化,使用缓存、文件裁剪、索引等优化手段;
- 网络加速,使用eRDMA进行网络加速,将shuffle阶段的数据交换运行在eRDMA网络,使得延时降低、CPU利用率大幅提升。
- 算子卸载,将压缩等运算卸载到异构器件
MRACC-SPARK(MRACC计算加速)的计算速度与计算成本具有显著优势。更多详细测试数据,请参见TPCXBB。
神龙大数据存储加速引擎MRACC-ALLUXIO
MRACC-ALLUXIO是阿里云神龙计算加速团队基于阿里云IaaS资源层研发和维护的高效ALLLUXIO加速组件,旨在实现开源兼容以及无感地加速您的大数据任务。
MRACC-Allxio 结合云上网络和存储方面的架构优势进行硬件加速并针对OSS等UFS实现读写优化;并且在元数据缓存管理、缓存命中率、缓存读写性能等方面进行优化。目前相对于开源Alluxio在TPCx-HS上有40%性能提升。
MRACC-ALLXIO(MRACC缓存/存储加速)支持的加速特性包括但不限于:
- OSS写优化
- OSS读优化
- 缓存命中率优化
- 调度优化
- 近存储计算异构卸载
MRACC-ALLUXIO(MRACC缓存/存储加速)的训练速度与训练成本具有显著优势。
效果量化
如何应用
收费
使用神龙大数据加速引擎MRACC不需要额外支付费用,您只需为执行计算任务过程中使用的阿里云资源付费。
如果您需要了解执行计算任务涉及到的阿里云资源的计费标准,请参见相关产品文档的计费章节。例如云服务器ECS计费、对象存储OSS计费、文件存储NAS计费。
落地(部署)
1、手动安装
下载 Alluxio
wget https://downloads.alluxio.io/downloads/files/2.8.0/alluxio-2.8.0-bin.tar.gz -P /root/alluxio
配置 Alluxio
解压alluxio压缩包
tar -xvf alluxio-2.8.0-bin.tar.gz
在主节点上创建conf/alluxio-site.properties,配置主节点主机名及挂载点:
alluxio.master.hostname=<MASTER_HOSTNAME>
alluxio.master.mount.table.root.ufs=<STORAGE_URI>
将每个Alluxio主节点的主机名附加到conf/masters中,并将每个worker节点的主机名附加到conf/worers中。
分发alluxio包到各个worker节点中
scp -r alluxio-2.8.0 root@120.24.245.139:/root
格式化
格式化日志将从Alluxio删除所有元数据。但是,存储在存储器中的数据将不受影响。
./bin/alluxio formatMasters
启动Alluxio集群
在主节点上,用以下命令启动Alluxio集群:
./bin/alluxio-start.sh all SudoMount
优势
- 提供内存级I/O吞吐率,同时降低具有弹性扩张特性的数据驱动型应用的成本开销。
- 简化云存储和对象存储接入。
- 简化数据管理,提供对多数据源的单点访问。
- 应用程序部署简易。
2、fastmr拉起
·选用vm镜像通过fastmr创建ALLUXIO集群。fastmr使用详见最佳用户指南文档。
3、容器交付
·conda环境下,跟数据湖解决方案一同创建。
兼容性
1、现有集群(使用方案1)
2、全新集群(使用方案2.3)
用户指南文档
客户自建高性能大数据集群在进行ECS 选型时,测试各种ECS集群大数据E2E性能是一件较为复杂繁琐的工作。FastMR仅需要通过简单配置,便能自动拉起spark/hadoop大数据集群,实现集群互联和组件部署及监控,并完成TPC-DS、TPCx-HS等具有较高认可度的大数据基础测试,输出该集群的大数据性能分析报告。用户可以通过性能分析报告和火焰图、资源监控等信息,助力完成大数据业务ECS性能选型。
前提条件
集群支持python 3.x环境
下载并安装FASTMR
wget -P /root https://fastmr.oss-cn-shenzhen.aliyuncs.com/yunqi_Lab/fastmr.tar.gz
cd /root && tar -zxvf fastmr.tar.gz && cd fastmr
pip3 install --upgrade pip
pip3 install wheel setuptools_rust
pip3 install --force-reinstall fastmr-1.0.0-py3-none-any.whl
配置集群
参数
属性名称 |
缺省 |
含义 |
model |
DT |
CDT:自动化创建ECS集群、部署大数据环境、完成TPC性能测试。 |
public_ip |
/ |
服务器的公网ip。分为masters和workers的公网ip,每一台服务器的ip都需要填写 |
usr |