一体系数据平台的进化:基于阿里云 EMR Serverless Spark 的持续演进

本文涉及的产品
函数计算FC,每月15万CU 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文介绍了一体系汽配供应链平台如何借助阿里云EMR Serverless Spark实现从传统Hadoop平台向云原生架构的迁移。通过融合高质量零部件供应与创新互联网科技,一体系利用EMR Serverless Spark和DataWorks构建高效数据分析体系,解决大规模数据处理瓶颈。方案涵盖实时数据集成、Lakehouse搭建、数仓分层设计及BI/ML应用支持,显著提升数据处理性能与业务响应速度,降低运维成本,为数字化转型奠定基础。最终实现研发效率提升、运维压力减轻,并推动AI技术深度整合,迈向智能化云原生数据平台。

一.背景介绍


一体系汽配供应链平台(以下简称一体系),专注提供高品质发动机、变速箱、底盘技术零部件,融汇优质实体资源和创新互联网科技,为上游品牌商提供高效的下沉渠道,为下游零售商带来可信赖的产品和服务,让采购更便捷可靠,实现行业数字化转型。

  • 随着企业对实时数据分析、AI 能力和大规模数据处理的需求不断增长,平台数据量庞大且持续增长、数据呈现半结构化及非结构化等特点的现状,传统的本地大数据平台在存储、弹性、成本、运维复杂度、深度挖掘、AI 支持等方面逐渐暴露出瓶颈。与此同时,云计算的成熟与普及催生了全新的“ Serverless 数据计算架构”,为构建下一代云原生数据平台提供了可能。
  • 阿里云 E-MapReduce(简称:EMR)推出的 EMR Serverless Spark 和 EMR Serverless StarRocks,正是这一趋势下的重要技术产品。这两个产品结合阿里云一站式数据开发治理平台 DataWorks,共同构建了一个高效、灵活、低成本的数据分析体系。

为了应对新的业务挑战,一体系选择与阿里云合作,利用其强大的 EMR 平台,构建了符合业务场景和分析师习惯的工程解决方案。

本文将从架构演进的角度出发,探讨如何通过 EMR Serverless Spark 和 DataWorks 实现从传统 Hadoop 平台向云原生架构的平滑迁移与持续优化


二.为什么选择阿里云 EMR Serverless Spark

EMR Serverless Spark 是一款兼容开源 Spark 的高性能 Lakehouse 产品。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务,显著简化了大数据计算的工作流程,无需用户管理底层集群即可直接提交作业,支持批处理和流式计算。使用户能更专注于数据分析和价值提炼。


  • 丰富的功能支持:支持权限管理、资源配额与任务隔离。兼容 Apache Spark API,现有任务可无缝迁移。
  • 灵活的计费方式:仅对实际使用的 CPU、内存和执行时间计费。
  • 良好的引擎性能:内置 Spark Native Engine,相对开源版本性能提升3倍。
  • 完善的服务保障:根据任务负载动态分配资源,提升性能与成本效益。无需关注集群部署、扩缩容、故障恢复等底层操作。


三.技术方案设计


一体系通过阿里云 EMR Serverless Spark,实现了数据与 AI 技术的有效融合,并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台。该平台核心部分如下:


首先,上游数据通过 DataWorks 的数据集成,实时以 Apache Paimon 格式写入数据湖,写入时开启自动 Compaction,用于平衡写入和读取性能。同时湖表元数据同步至 DLF,以保持数据的实时性。


其次,通过 Serverless Spark 构建了数仓经典分层架构,95%的数据源采用 DataWorks 数据集成的实时入湖(ODS),经过清洗转化为明细数据(DWD),然后根据主题将明细层数据轻度聚合(DWS),再根据特定应用或业务场景提供高质量的指标数据(ADS),为上层业务系统提供支持。


在 BI 应用方面,一体系通过 DataWorks 调度 StarRocks 任务,通过使用异步物化视图,加速数据湖查询,为数据湖中的报表和应用实现更高的并发,以及更好的性能。同时将 StarRocks 本地表中的实时数据与数据湖中的历史数据关联起来以进行增量计算。为上层应用提供 Dashboard 和报表支持,提升了数据的可视化和决策能力。


在 ML/AI 应用方面,一体系通过 DataWorks 调度 Spark  任务,进行数据的计算和聚合,处理后的指标数据从数据湖推送到了 AI 知识库,推动了 Data + AI 技术在实际业务中的应用。

以下架构图展示了如何利用 Serverless Spark 结合开源湖格式 Paimon、ML/AI 的多种工具库,以及阿里云 DLF 统一湖仓管理平台,实现高效的数据处理和 AI 赋能,使用 Serverless StarRocks 实现极速数据分析,为业务应用带来显著的提升。


640 - 2025-06-18T164305.127.png



四.数据平台演进


第一阶段(评估),明确现状与目标,选型阶段我们做了很多的调研,综合各个方面考虑(湖仓一体、存算分离、弹性伸缩、开箱即用、运维监控、长期支持等),选择一个成熟且统一的平台:既能够支持数据处理、数据分析场景,也能够很好地支撑数据科学场景,于是选择了阿里云 EMR。

第二阶段(适配),任务兼容性验证,基于原数据平台 Apache Ambari+Azkaban 的构建,梳理 Hadoop 任务、依赖关系、数据流向等,将作业适配到 EMR Serverless 环境,测试性能与稳定性,确保 Spark SQL、UDF、依赖库等均兼容 EMR Serverless Spark。

第三阶段(迁移),分批切换任务,在 DataWorks 中创建新任务和流程编排,使用 Spark 作为计算引擎,逐步替代原有脚本和 jar 包,将数据迁移到 OSS 或 OSS-HDFS 中,实现存储与计算解耦。

第四阶段(优化),性能调优与成本控制,EMR Serverless Spark 提供了 Fusion 引擎,性能提升显著。StarRocks 提供了可视化慢 SQL,及 SQL 查询分析能力,方便运维管理。利用 Serverless 特性优化资源配置,提升性价比。

第五阶段(治理),统一平台管理,借助 DataWorks 实现任务统一调度、监控与治理,结合 EMR Serverless Spark 和 EMR Serverless StarRocks 的一站式的数据平台服务,极大地简化了数据处理的全生命周期工作流程。


五.业务场景介绍


随着企业加速数字化应用的广度和深度,平台运营数据成为驱动业务增长、改善用户体验、提升运营效率的核心资产。数据处理架构满足了日益增长的数据量、实时性要求及灵活分析能力的需求,不仅解决了企业在日常海量运营数据分析的性能瓶颈、成本压力与运维难题,更为企业提供了敏捷开发、智能分析、持续演进的能力支撑。


场景1基于业务交易端到端数据的深度应用,动态、灵活制定运营策略,指导各业务端开展针对性的工作,达到公司中、短期目标。


  • EMR Serverless Spark:对来自多个系统的交易数据进行清洗、合并、维度建模。
  • DataWorks:统一编排每日/每小时任务,保障数据准时产出。
  • OLAP 引擎:使用 StarRocks 进行实时查询与可视化分析。
  • ML 模型集成通过 Spark MLlib 接入模型,进行特定场景针对性的策略制定。


场景2客户服务分析对于提升客户满意度、增强品牌忠诚度以及优化整体运营效率至关重要。通过全面的数据分析,快速识别客户服务中的薄弱环节,制定有效的改进措施。


  • EMR Serverless Spark负责对业务全过程数据的清洗、聚合计算
  • DataWorks:统一调度 Spark 任务,管理依赖关系,保障任务链稳定性。
  • StarRocks:用于物化视图加速湖仓数据,交互式查询与报表展示。
  • 报表对接:通过统一接口将分析结果接入报表系统。


六.Serverless Spark 产品优势

  • 云原生极速计算引擎

内置 Spark Native Engine,相对开源版本性能提升3倍; 内置企业级 Celeborn (Remote Shuffle Service),支持 PB 级 Shuffle 数据,计算资源总成本最高下降 30% 。

  • 弹性资源管理

资源调度具备秒级弹性,支持按需分配最小粒度为 1 核的资源,按任务或队列级别进行精细化资源计量,确保资源使用的最大化与灵活性。

  • DATA 和 AI

提供完全兼容 PySpark/Python 的开发与运行环境,支持 Python 生态的机器学习 Lib,以及 Spark MLlib,支持产品化管理 Python 三方依赖库。

  • 生态兼容

具备强大的兼容性与集成能力。支持 DLF 和 Hive MetaStore 数据目录,兼容 Paimon、Iceberg、Hudi 和 Delta 等主流湖格式,可对接 Airflow 和 Dolphin Scheduler 等主流调度系统,支持 Kerberos/LDAP 认证和 Ranger 鉴权,还支持 DataWorks 和 DBT 提交任务,全方位满足用户需求。

七.迁移后的收益

技术层面:

  • 数据入湖:
  • 采用了 Apache Paimon 作为数据湖存储格式,并集成了 Apache Spark、Flink 作为计算引擎,构建了一个完整的数据湖仓系统。这一系统已经在实时数据监控和分析等场景中得到了成熟的应用,显著提升了我们的数据处理能力和业务效率。
  • 研发效率:

  • 迁移到 EMR Serverless Spark + DataWorks架构后,使用 Spark SQL 会话功能快速开发验证+DataWorks 生产调度的模式,研发效率显著提升,保障了关键业务的数据产出支持。
  • 运维保障:
  • EMR Serverless Spark 的多版本管理能力为用户提供了灵活的选择空间,支持快速升级至最新优化版本,自动化的扩缩容、故障恢复等功能减少了手动干预的需求,降低运维压力。

业务层面:

  • 数据响应时长:大量作业由小时级提高到分钟级,生产速度得到大幅提升。
  • 弹性伸缩能力根据任务的实际需求动态调整资源规模,确保在高峰期也能保持良好的性能表现,同时在低谷期节省开支。


八.总结及后续期待


我们基于阿里云 EMR Serverless Spark 技术栈快速构建了全新的大数据平台,相比开源版本3倍以上的性能优势以及计算/存储分离的架构,极大提升了我们数据团队的效能,为开展业务分析提供快速数据交付能力。从传统 Hadoop 到 Serverless Spark,不仅是技术架构的升级,更是企业数据能力的一次质变,构建了一个面向未来的一体云原生数据平台,为 AI 应用的深度融合,奠定数字化基础

EMR Serverless Spark 助力我们实现高效、弹性、易维护的数据处理,迈向更智能、更敏捷的云原生数据平台。未来可期,继续携手前行!”

—— 体系平台架构师

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
相关文章
|
3月前
|
SQL 分布式计算 Serverless
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
325 56
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
|
3月前
|
存储 运维 Serverless
千万级数据秒级响应!碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践
碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构,解决了海量数据处理中的资源利用率低、并发能力不足等问题,显著降低了硬件和运维成本。实时查询性能提升8倍,查询出错率减少30倍,集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验,还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。
324 69
|
5月前
|
SQL 存储 OLAP
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
105 0
|
5月前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
|
5月前
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
456 58
|
5月前
|
机器学习/深度学习 分布式计算 大数据
阿里云 EMR Serverless Spark 在微财机器学习场景下的应用
面对机器学习场景下的训练瓶颈,微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark,微财突破了单机训练使用的数据规模瓶颈,大幅提升了训练效率,解决了存算分离架构下 Shuffle 稳定性和性能困扰,为智能风控等业务提供了强有力的技术支撑。
271 15
|
7月前
|
SQL 存储 缓存
EMR Serverless StarRocks 全面升级:重新定义实时湖仓分析
本文介绍了EMR Serverless StarRocks的发展路径及其架构演进。首先回顾了Serverless Spark在EMR中的发展,并指出2021年9月StarRocks开源后,OLAP引擎迅速向其靠拢。随后,EMR引入StarRocks并推出全托管产品,至2023年8月商业化,已有500家客户使用,覆盖20多个行业。 文章重点阐述了EMR Serverless StarRocks 1.0的存算一体架构,包括健康诊断、SQL调优和物化视图等核心功能。接着分析了存算一体架构的挑战,如湖访问不优雅、资源隔离不足及冷热数据分层困难等。
|
9月前
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
493 58
|
10月前
|
缓存 Kubernetes Java
阿里云 SAE Web:百毫秒高弹性的实时事件中心的架构和挑战
SAE 事件中心通过智能诊断显示通知与用户连接起来,SAE WEB 百毫秒弹性实例给事件中心带来了新的实时性、海量数据和高吞吐的挑战,本篇将带您了解 SAE 整体事件中心的架构和挑战。
313 11

热门文章

最新文章