数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: 阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。

引言

阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。


近年来随着AI应用的爆发,用户对数据存储、数据管理和数据开发需求也更加多样化,比如非结构化数据的原生存储和处理、ML/模型微调/推理的开发工作流搭建等,传统的数据湖仓已无法满足诉求,主要面临以下痛点:


  • 非结构化和向量数据处理困难:针对非结构化数据,采取数据和元数据分离存储方式,存在数据一致性问题,使用时需要先读路径,再读原始文件,带来二次I/O开销;针对向量,无法直接进行高效的向量近似性检索,依赖外部向量库。
  • 数据读写存在I/O瓶颈:在ML场景下,需要快速小批量的随机访问,传统数据湖仓擅长全量扫描/大批量顺序读,适合JOIN等聚合操作,在ML场景下带来严重的读I/O放大和延迟。
  • 异构资源调度低效:AI开发工作流中的任务,通常同时使用CPU和GPU资源,传统数据湖仓无法协调全链路中异构资源的调度,导致资源利用率低。
  • Python生态割裂:传统数据湖仓以SQL/Dataframe API为主,非原生Python支持。比如DataFrame传递给PyTorch DataLoader时,数据需跨越JVM和Python两个技术生态,带来额外的序列化/反序列化开销。
  • 多模态数据管理复杂:结构化数据、图片等非结构化数据以及向量数据,分散存储,管理复杂,难以关联访问。


基于AI发展趋势及上述痛点,ADB从数据湖仓逐步演进到AI数据湖仓,构建了以ADB Ray/Spark+Lance为核心的AI流水线,采用AI原生的Lance存储格式,基于Apache Arrow,Lance数据可直接被PyTorch/TF读写,无需数据拷贝;并深度集成Ray与Spark两大开源计算引擎,提供从数据处理到分布式模型ML/微调、再到推理的产品方案,打破AI与BI的壁垒,实现从数据到智能的最短路径。

image.png

ADB AI数据湖仓解决方案

ADB Ray + Lance:构建从数据到模型的AI流水线

ADB存储层通过引入AI原生的Lance数据格式,并结合上层托管的ADB Ray和ADB Spark计算引擎,将多模数据ETL与ML一体化,更高效地构建和优化AI流水线。

image.png

▶︎ ADB Ray介绍:

Ray是一款专为AI与高性能计算设计的开源分布式计算框架,以简洁API抽象分布式调度,仅需几行代码,即可将单机任务扩展至千节点集群。内置Ray Tune、Ray Train、Ray Serve等模块,无缝兼容TensorFlow/PyTorch生态。具备覆盖AI开发全链路、异构资源灵活调度等特点,适合多模态处理、搜索推荐、金融风控、图计算等业务场景。


ADB Ray是AnalyticDB MySQL推出的全托管Ray服务,基于开源Ray的丰富生态,对Ray内核和服务能力进行了全栈增强。开发者的应用无需关注集群运维,即可快速获得ADB Ray带来的性价比优化,同时无缝的和ADB湖仓打通,构建Data + AI一体化架构。

▶︎ Lance on ADB湖存储介绍:

Lance是一种针对多模态数据专门优化的开源存储格式,专为混合存储大规模非结构化数据(如图片、视频、嵌入向量)和结构化数据(如元数据、标签)设计。旨在解决Parquet等传统格式在处理多模态数据时的性能瓶颈。Lance核心目标是为AI应用提供高效的数据存储和处理能力,尤其适合需要处理大量图片、文本和嵌入向量的场景。具备高性能随机点查、向量搜索、零拷贝schema演进和丰富的生态集成等特点。


Lance on ADB湖存储,指的是将Lance集成在ADB湖存储中,除了托管存储以外,还旨在提供持续优化的面向AI场景的数据处理与应用解决方案。


  • Data+AI Zero ETL:ADB湖存储通过APS(ADB Pipeline Service,ADB内置管道服务),自动感知增量数据文件,比如针对新增视频文件可自动完成截帧,并调用百炼或外部服务完成截帧图片的描述生成和图文向量构建。用户也可自定义算子开发;同时内置数据格式转换服务,可将已有图片/文本/音视频等多模数据一键转为Lance格式等,无需手动编写复杂的ETL逻辑,快速构建AI数据处理管道。
  • ADB Ray/Spark+Lance深度融合:借助Lance数据格式,打破以Python为核心的AI开发(Ray)与以SQL为核心的数据工程(Spark)之间的壁垒,数据工程师可以用Spark进行大规模的ETL和特征工程,将AI就绪的数据写入Lance;AI科学家可以用Ray,通过零拷贝的方式直接在同一份数据上进行后续的ML和向量检索等。
  • 未来可期,迈向零运维多模数据湖:延续前面所讲的数据湖底座能力,ADB也正在构建基于Lance的文件入湖、元数据服务和自动化Compation等,让多模数据易发现、易管理和易使用。

实践应用介绍

最后介绍ADB Ray+Lance的部分案例场景和方案。

▶︎ 图文混存

image.png

方案:多模态场景中图文混存是常见场景,即将图片与相关的文本描述、标签、ID等元数据存储在一起,形成统一的多模态数据集。通过ADB Spark实现对图片和文本数据的处理与合并,最后将包含了所有信息(图片二进制/文本/ID等)的DataFrame,直接以Lance格式写入到湖存储中。


价值:

  • 解决了传统图文分离存储方案中的数据完整性和一致性问题,图片与元数据存储在同一文件中,方便管理。
  • 高效读取。传统方案是在表中存储图片url,访问数据时需额外的IO去读取图片数据。Lance的多模存储可以一次性把元数据和图片同时读取出来,减少IO操作和路径查找时间,尤其适合批量处理大量图片+数据的场景(如机器学习数据集)。在客户场景测试中,与采用Parquet对比,处理性能提升2-4倍

▶︎ 图片打标及微调

image.png

方案:图片打标,是AI领域的常见操作,即对原始图片添加一个或多个描述性内容(即“标签”或“Tag”)。通过ADB Ray Data实现源数据的加载和Lance格式转换,基于Ray Serve部署打标推理服务,最终在Lance数据集中新增标签列,并且还可部署微调框架LLaMA Factory进行后续开发。


价值:

  • 利用Lance零成本schema演进特性,实现高效加列,无需重写数据文件,新增小文件即可;在客户场景测试中,与采用Parquet对比,性能提升3倍+
  • 通过ADB Ray工具链,一站式完成数据处理、打标和微调。

▶︎ ADB Ray Pipeline流式高并发调度

image.png

方案:在车端数据中,需处理PB级多模态Clip数据(视频/点云/雷达/GPS/车辆控制信号),基于ADB Ray Pipeline进行流式的视频文件切割和打标,并将处理好的数据通过Lance格式存储在湖存储中。基于打标好的数据,业务可结合场景通过Airflow触发Ray Pipeline对Lance数据做二次加工。


价值:

  • 相比传统调度的异构资源使用和开销,ADB Ray不同阶段CPU和GPU任务可以并行执行,执行时间无等待,资源空闲小,最大化处理吞吐。结合基于画像的CPU和GPU异构资源精细化调度,可将GPU利用率提升至90%+
  • 任务调度吞吐可达400+ task/s , 随着资源增加,吞吐线性增长。

点解了解更多

欢迎钉钉搜索群号 23128105 or 扫码加入钉群进行交流

image.png

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
11天前
|
人工智能 分布式计算 Cloud Native
阿里云大数据AI产品月刊-2025年9月
大数据& AI 产品技术月刊【2025年 9 月】,涵盖 9 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
阿里云大数据AI产品月刊-2025年9月
|
22天前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
413 22
|
22天前
|
消息中间件 人工智能 运维
事件驱动重塑 AI 数据链路:阿里云 EventBridge 发布 AI ETL 新范式
“一个简单的数据集成任务,开始时总是轻松愉快的,但随着业务扩展,数据源越来越多,格式越来越乱,整个数据链路就会变得一团糟。”陈涛在演讲中指出了当前 AI 数据处理的普遍困境。扩展难、运维难、稳定性差,这三大挑战已成为制约 AI 应用创新和落地的关键瓶颈。针对这些痛点,在2025云栖大会期间,阿里云重磅发布了事件驱动 AI ETL 新范式,其核心产品 EventBridge 通过深度集成 AI 能力,为开发者提供了一套革命性的解决方案,旨在彻底改变 AI 时代的数据准备与处理方式。
208 11
|
1月前
|
人工智能 机器人 新能源
深化新工科建设 共探智能新未来 | 阿里云支持南京大学苏州校区“AI DAY”盛大启幕丨云工开物
9月12日,南京大学苏州校区举办“AI新视界:深化新工科建设进行式”活动,采用教师与学生双专场模式,通过主题分享、实践演练、产业课题发布等形式,搭建产教融合AI交流平台,助力未来产业科技人才培养。
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
迁移学习:让小数据也能驱动AI大模型
迁移学习:让小数据也能驱动AI大模型
241 99
|
23天前
|
人工智能 Cloud Native 安全
解读阿里云刚发布的《AI 原生应用架构白皮书》
阿里云在云栖大会重磅发布了《AI 原生应用架构白皮书》,该白皮书覆盖 AI 原生应用的 11 大关键要素,获得业界 15 位专家联名推荐,来自 40 多位一线工程师实践心得,全书合计超 20w 字,分为 11 章,全面、系统地解构 AI 原生应用架构,包含了 AI 原生应用的 11 大关键要素,模型、框架、提示词、RAG、记忆、工具、网关、运行时、可观测、评估和安全。本文整理自阿里云智能技术专家李艳林在云栖大会现场的解读。
775 28
|
28天前
|
人工智能 机器人 Serverless
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
当云计算遇见具身智能,AI咖啡开启零售新体验。用户通过手机生成个性化图像,云端AI快速渲染,机器人精准复刻于咖啡奶泡之上,90秒内完成一杯可饮用的艺术品。该方案融合阿里云FunctionAI生图能力与安诺机器人高精度执行系统,实现AIGC创意到实体呈现的闭环,为线下零售提供低成本、高互动、易部署的智能化升级路径,已在商场、机场、展馆等场景落地应用。
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
|
22天前
|
人工智能 缓存 安全
阿里云发布《AI 原生应用架构白皮书》
阿里云联合阿里巴巴爱橙科技,共同发布《AI 原生应用架构白皮书》,围绕 AI 原生应用的 DevOps 全生命周期,从架构设计、技术选型、工程实践到运维优化,对概念和重难点进行系统的拆解,并尝试提供一些解题思路。白皮书覆盖 AI 原生应用的 11 大关键要素,获得 15 位业界专家联名推荐,来自 40 多位一线工程师实践心的,全书合计超 20w 字,分为 11 章。
1036 14

热门文章

最新文章