什么是神龙大数据加速引擎MRACC

简介: MRACC

神龙大数据加速引擎MRACC是基于阿里云IaaS资源推出的大数据加速引擎,用于优化基于大数据主流计算框架搭建的大数据框架,能显著提升数据湖及数据仓库性能。配合资源管理工具FastMR快速构建大数据计算集群,全面提升研发效率。

使用MRACC加速大数据应用

一个使用MRACC加速的大数据应用的基础架构如下图所示。

其中:

  • 资源层(阿里云IaaS资源):在资源层使用阿里云IaaS资源,按需开启,满足大规模大数据集群的计算、存储、网络资源的弹性需求,并支持FPGA/GPU等异构计算。
  • 性能分析(神龙大数据应用性能分析):在分析层使用MRACC自研的可视化应用分析和资源监控工具,支持用户快速定位应用瓶颈,充分发挥资源能力。
  • 框架层(神龙大数据加速引擎):在框架层使用MRACC实现多框架统一加速。MRACC主要利用了ERDMA高性能网络进行了shuffle组件优化,提升分布式系统的数据交换能力;使用向量化等手段对SQL引擎进行了深度优化。并针对数据湖场景对alluxio进行了深度优化。
  • 调度层(神龙大数据加速任务调度):在调度层使用FastMR构建大数据计算任务并管理大规模大数据集群相关的资源,并支持ACK容器调度。
  • 应用层(神龙大数据加速参考解决方案):在应用层实现针对各种应用场景的大数据应用,覆盖数据湖、内容推荐、商业智能、用户画像等常见场景。由于在框架层使用MRACC实现统一加速,您只需调整少量代码即可大幅提升应用性能。

产品优势

使用MRACC加速大数据应用具有以下优势:

  • 基于阿里云IaaS资源,资源易用性和稳定性有保障。
  • 配合FastMR一键构建任务,缩短创建和配置资源的时间并提高节点资源利用率与弹性功能,大大降低成本。
  • 支持多种大数据常用组件,针对阿里云IAAS做了大量软硬件优化,提升了大数据整体的性价比。

神龙大数据计算加速引擎MRACC-SPARK

MRACC-SPARK是阿里云神龙计算加速团队基于阿里云IaaS资源层研发和维护的高效SPARK加速组件,旨在实现开源兼容以及无感地加速您的大数据任务。

  • MRACC-SPARK支持基于开源SPARK主流模块开发的分布式大数据计算任务。
  • 在接口层面上,MRACC-SPARK兼容了开源SPARK,对于原生的SPARK任务实现了无感的性能加速。
  • 针对大数据任务重IO特性,MRACC-Spark在网络和存储方面结合云上的架构优势进行软硬件加速。

MRACC-SPARK(MRACC计算加速)支持的加速特性包括但不限于:

  • SQL引擎优化,使用缓存、文件裁剪、索引等优化手段;
  • 网络加速,使用eRDMA进行网络加速,将shuffle阶段的数据交换运行在eRDMA网络,使得延时降低、CPU利用率大幅提升。
  • 算子卸载,将压缩等运算卸载到异构器件

MRACC-SPARK(MRACC计算加速)的计算速度与计算成本具有显著优势。更多详细测试数据,请参见TPCXBB。

神龙大数据存储加速引擎MRACC-ALLUXIO

MRACC-ALLUXIO是阿里云神龙计算加速团队基于阿里云IaaS资源层研发和维护的高效ALLLUXIO加速组件,旨在实现开源兼容以及无感地加速您的大数据任务。

MRACC-Allxio 结合云上网络和存储方面的架构优势进行硬件加速并针对OSS等UFS实现读写优化;并且在元数据缓存管理、缓存命中率、缓存读写性能等方面进行优化。目前相对于开源Alluxio在TPCx-HS上有40%性能提升。

MRACC-ALLXIO(MRACC缓存/存储加速)支持的加速特性包括但不限于:

  • OSS写优化
  • OSS读优化
  • 缓存命中率优化
  • 调度优化
  • 近存储计算异构卸载

MRACC-ALLUXIO(MRACC缓存/存储加速)的训练速度与训练成本具有显著优势。

效果量化

如何应用

收费

使用神龙大数据加速引擎MRACC不需要额外支付费用,您只需为执行计算任务过程中使用的阿里云资源付费。

如果您需要了解执行计算任务涉及到的阿里云资源的计费标准,请参见相关产品文档的计费章节。例如云服务器ECS计费对象存储OSS计费文件存储NAS计费

落地(部署)

1、手动安装

下载 Alluxio

wget https://downloads.alluxio.io/downloads/files/2.8.0/alluxio-2.8.0-bin.tar.gz -P /root/alluxio

配置 Alluxio

解压alluxio压缩包

tar -xvf alluxio-2.8.0-bin.tar.gz

在主节点上创建conf/alluxio-site.properties,配置主节点主机名及挂载点:

alluxio.master.hostname=<MASTER_HOSTNAME>

alluxio.master.mount.table.root.ufs=<STORAGE_URI>

将每个Alluxio主节点的主机名附加到conf/masters中,并将每个worker节点的主机名附加到conf/worers中。

分发alluxio包到各个worker节点中

scp -r alluxio-2.8.0 root@120.24.245.139:/root

格式化

格式化日志将从Alluxio删除所有元数据。但是,存储在存储器中的数据将不受影响。

./bin/alluxio formatMasters

启动Alluxio集群

在主节点上,用以下命令启动Alluxio集群:

./bin/alluxio-start.sh all SudoMount


优势

  • 提供内存级I/O吞吐率,同时降低具有弹性扩张特性的数据驱动型应用的成本开销。
  • 简化云存储和对象存储接入。
  • 简化数据管理,提供对多数据源的单点访问。
  • 应用程序部署简易。

2、fastmr拉起

·选用vm镜像通过fastmr创建ALLUXIO集群。fastmr使用详见最佳用户指南文档。

3、容器交付

·conda环境下,跟数据湖解决方案一同创建。


兼容性

     1、现有集群(使用方案1)

     2、全新集群(使用方案2.3)

用户指南文档

客户自建高性能大数据集群在进行ECS 选型时,测试各种ECS集群大数据E2E性能是一件较为复杂繁琐的工作。FastMR仅需要通过简单配置,便能自动拉起spark/hadoop大数据集群,实现集群互联和组件部署及监控,并完成TPC-DS、TPCx-HS等具有较高认可度的大数据基础测试,输出该集群的大数据性能分析报告。用户可以通过性能分析报告和火焰图、资源监控等信息,助力完成大数据业务ECS性能选型。

前提条件

集群支持python 3.x环境

下载并安装FASTMR

wget -P /root https://fastmr.oss-cn-shenzhen.aliyuncs.com/yunqi_Lab/fastmr.tar.gz

cd /root && tar -zxvf fastmr.tar.gz && cd fastmr

pip3 install --upgrade pip

pip3 install wheel setuptools_rust

pip3 install --force-reinstall fastmr-1.0.0-py3-none-any.whl

配置集群

参数

属性名称

缺省

含义

model

DT

CDT:自动化创建ECS集群、部署大数据环境、完成TPC性能测试。
DT:使用现有ECS集群、部署大数据环境、完成TPC性能测试。

public_ip

/

服务器的公网ip。分为masters和workers的公网ip,每一台服务器的ip都需要填写

usr

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
4月前
|
数据采集 缓存 大数据
【赵渝强老师】大数据日志采集引擎Flume
Apache Flume 是一个分布式、可靠的数据采集系统,支持从多种数据源收集日志信息,并传输至指定目的地。其核心架构由Source、Channel、Sink三组件构成,通过Event封装数据,保障高效与可靠传输。
302 1
|
4月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
372 0
|
7月前
|
分布式计算 关系型数据库 MySQL
【赵渝强老师】大数据交换引擎Sqoop
Sqoop是一款开源工具,用于在Hadoop与传统数据库如Oracle、MySQL之间传输数据。它基于MapReduce实现,支持数据导入导出、生成Java类及Hive表结构等操作,适用于大数据处理场景。
185 3
【赵渝强老师】大数据交换引擎Sqoop
|
7月前
|
人工智能 分布式计算 DataWorks
分布式×多模态:当ODPS为AI装上“时空穿梭”引擎
本文深入探讨了多模态数据处理的技术挑战与解决方案,重点介绍了基于阿里云ODPS的多模态数据处理平台架构与实战经验。通过Object Table与MaxFrame的结合,实现了高效的非结构化数据管理与分布式计算,显著提升了AI模型训练效率,并在工业质检、多媒体理解等场景中展现出卓越性能。
|
SQL 存储 大数据
Flink 基础详解:大数据处理的强大引擎
Apache Flink 是一个分布式流批一体化的开源平台,专为大规模数据处理设计。它支持实时流处理和批处理,具有高吞吐量、低延迟特性。Flink 提供统一的编程抽象,简化大数据应用开发,并在流处理方面表现卓越,广泛应用于实时监控、金融交易分析等场景。其架构包括 JobManager、TaskManager 和 Client,支持并行度、水位线、时间语义等基础属性。Flink 还提供了丰富的算子、状态管理和容错机制,如检查点和 Savepoint,确保作业的可靠性和一致性。此外,Flink 支持 SQL 查询和 CDC 功能,实现实时数据捕获与同步,广泛应用于数据仓库和实时数据分析领域。
9572 32
|
11月前
|
机器学习/深度学习 搜索推荐 算法
大数据与金融科技:革新金融行业的动力引擎
大数据与金融科技:革新金融行业的动力引擎
264 0
大数据与金融科技:革新金融行业的动力引擎
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
703 15
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
301 6
|
存储 SQL 分布式计算
大数据时代的引擎:大数据架构随记
大数据架构通常分为四层:数据采集层、数据存储层、数据计算层和数据应用层。数据采集层负责从各种源采集、清洗和转换数据,常用技术包括Flume、Sqoop和Logstash+Filebeat。数据存储层管理数据的持久性和组织,常用技术有Hadoop HDFS、HBase和Elasticsearch。数据计算层处理大规模数据集,支持离线和在线计算,如Spark SQL、Flink等。数据应用层将结果可视化或提供给第三方应用,常用工具为Tableau、Zeppelin和Superset。
5512 8