大数据& AI 产品技术月刊【2025年 9 月】,涵盖 9 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
一、云栖速递
云栖2025 | 大数据 AI 平台:构筑 Agentic AI 的核心基石
在2025云栖大会上,阿里云智能集团计算平台负责人汪军华发表《大数据 AI 平台:构筑 Agentic AI 核心基石》主题演讲,并带来阿里云大数据AI平台多款产品升级发布。
人工智能平台 PAI 年度重磅升级,全文覆盖训练、推理、开发与 Agent 搭建等多个方面,并贴合 MoE 架构、DiT 架构、强化学习和分布式推理等新趋势带来计算范式变革分享。
云栖2025|阿里云OpenLake及行业解决方案年度发布,助力千行百业Data+AI一体化融合
阿里云发布 OpenLake 解决方案全新升级,并针对行业 Agentic AI 应用的挑战,全新发布全模态数据预处理、大模型后训练、具身智能、AI加持下的一站式湖仓迁移等解决方案。
云栖2025 | 阿里云自研大数据平台ODPS 重磅升级:全面支持AI计算和服务
阿里云 ODPS 十五周年全面升级,MaxCompute、Hologres、DataWorks 协同打造 AI 原生智能数据平台,支持异构算力、多模态分析、NL2SQL Agent 等能力,赋能企业实现从数据治理到 AI 服务的全链路智能化。
云栖2025|阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级
阿里云开源大数据平台围绕“实时化、多模态、智能化”的现代数据架构演进趋势,为企业提供“实时、准实时、离线”数据分析一体化及 Data + AI 领域的创新实践,全面赋能企业实现高效智能的数据管理与 AI 融合创新。
云栖2025 | 阿里云AI搜索年度发布:开启Agent时代,重构搜索新范式
阿里云搜索技术通过重塑信息交互范式、Agentic Search 架构创新、优化云原生引擎性能,从传统“信息匹配”迈向“智能问题解决”的全新时代,助力金山办公在文档协作领域实现百万向量/千 QPS 检索能力,支持货拉拉在物流调度的洪峰压力下保持核心业务极低延迟,实现了客户业务性能突破与成本优化的双赢。
二、产品快讯
两项世界第一!阿里云EMR登顶全球数据仓库性能及性价比排行榜
阿里云EMR在TPC-H和TPC-DS全球权威数据仓库基准测试中双双登顶,斩获性能与性价比两项世界第一。EMR Serverless StarRocks(Stella 1.2.0内核)以754万QphH分刷新TPC-H纪录,性能领先第二名111%;EMR Serverless Spark(Fusion 2.0内核)在TPC-DS 100TB测试中达6568万QphDS分,性能与性价比分别领先100%和500%。
阿里云 Hologres 登顶 VectorDBBench 性价比榜单四项第一
Hologres 发布全新向量索引 HGraph,登顶 VectorDBBench 性价比榜单 QPS、Recall、Latency、Load 四项第一,为AI应用的提供高性价比、高吞吐、低延迟、高并发的向量服务,成为全球最具性价比的向量数据库!
阿里云 PAI 与 NVIDIA Physical AI 软件栈全面集成,提供端到端物理 AI 解决方案。整合 Isaac Sim、Isaac Lab、Cosmos 及 Physical AI 数据集,覆盖数据预处理、仿真生成、模型训练推理、机器人强化学习和仿真测试全链路。开发者可在 PAI 平台内享受到开箱即用、算力合池、数据闭环及云原生基础设施优势,加速具身智能与机器人项目创新落地。
凭借出色的产品能力和市场表现,阿里云领跑中国数据基础设施市场,在大数据公有云市场报告中,阿里云以47%的市场份额超过第二名至第四名的总和。
【新模型速递】PAI-Model Gallery云上一键部署Qwen3-Next系列模型
阿里云 PAI-Model Gallery 率先支持一键部署阿里巴巴最新开源的 Qwen3-Next 系列模型。采用混合注意力、高稀疏度 MoE 和多令牌预测等创新技术,显著提升了超长上下文处理效率和推理速度。PAI 平台提供零代码部署、自动化资源适配、托管运维及企业级安全,简化了模型应用开发,助力用户高效利用 SOTA 大模型。
Mem0 结合阿里云 Milvus 构建 AI 智能体的持久化记忆层,解决传统 LLM“健忘”问题。通过语义捕获、向量化存储和双路检索(向量+图谱),实现 AI 长期记忆、个性化对话及复杂关系解析。这使得 AI 应用能持续学习、上下文感知,提升了智能体与用户交互的连贯性和准确性。
三、最佳实践
阿里云PAI-EAS提供企业级EP解决方案,简化部署、优化调度、保障稳定性,并支持灵活的生命周期管理。用户可轻松在PAI控制台部署和管理DeepSeek-R1 EP服务。
【跨国数仓迁移实践9】dbt‑maxcompute 在 GoTerra 迁移过程中的落地与技术贡献
bt-maxcompute 作为开源适配器,深度结合 MaxCompute 特性,提供了灵活的增量策略、增强的 Table 物化、优化的 Seed 数据加载、数据新鲜度监控及第三方 dbt 包适配,显著提升了迁移效率、性能并降低了成本,保障了 PB 级数据仓库的平滑过渡与高效运行。
【跨国数仓迁移实践10】 MMS助力GoTerra实现BigQuery到MaxCompute 50PB数据迁移
MMS(MaxCompute Migration Service)成功助力东南亚科技集团 GoTerra,在6个月内将50PB数据从 BigQuery 迁移至 MaxCompute。MMS 通过数据类型/分区策略映射、BigQuery Read API 直读、专线传输、原子性保障、优先级调度及 Column-Reorder-Fillback 等关键技术,实现了高效、平滑的数据迁移,保障了 GoTerra 业务的连续性与稳定性。
Lazada 如何用实时计算 Flink + Hologres 构建实时商品选品平台
构建了端到端实时商品选品平台,解决了其在东南亚多市场管理数十亿 SKU 的挑战。通过统一流批处理、分层架构和创新技术(如 Roaring Bitmap、JSON-B),实现了商品选品的实时洞察、运营决策和成本优化。它将电商从“事后分析”推向“事中调控”,显著提升了业务响应速度和效率。
淘宝闪购实时分析黑科技:StarRocks + Paimon撑起秋天第一波奶茶自由
饿了么数据团队依托一年多的湖仓探索与沉淀,选择 StarRocks + Paimon 搭建实时湖仓架构,并通过物化视图优化、RoaringBitmap 去重和大查询治理,突破了传统离线架构的瓶颈,为闪购提供了坚实的数据支撑。
淘宝闪购基于Flink&Paimon的Lakehouse生产实践:从实时数仓到湖仓一体化的演进之路
拥抱更加开放的生态体系,让不同的技术能够和谐共存,发挥各自优势。避免技术栈的单一化,通过开放的架构设计支持多样化的业务需求。
通过引入 Apache Paimon、Serverless Spark 和 Serverless StarRocks,将大数据平台从传统离线架构升级为实时数据湖。实现了数据新鲜度10倍提升、存算分离、Serverless 弹性算力及全链路性能优化,解决了资源耦合、算力瓶颈等问题,显著提升了数据处理效率和业务决策敏捷性,为聚好看的数智化转型提供了强力支撑。
AI搜索的黑科技?OpenSearch 的 DeepSearch 究竟“深”藏着什么秘密?
OpenSearch 的 DeepSearch 技术结合关键词、语义和向量混合检索,通过 Agentic RAG 与多轮推理,显著提升 AI 搜索精准度。它优化了文档解析、向量模型和重排机制,实现高达95%的 RAG 准确率,并提供智能客服、企业知识库等一站式解决方案,助力企业构建高效、个性化的 AI 问答服务,引领 AI 搜索新范式。
StarRocks助力数禾科技构建实时数仓:从数据孤岛到智能决策
凭借 StarRocks 优异的实时写入与查询性能、存算分离架构及强大生态兼容性,构建标准化三层数据链路,实现了关键业务报表从小时级到分钟级的提速、资源利用率提升至75%,并显著降低了运维与存储成本,有力支撑了金融业务的实时智能决策。
阿里云携手 MiniMax 构建云原生数仓最佳实践:大模型时代的 Data + AI 数据处理平台
MiniMax 与阿里云开展深度技术协同,在大模型时代成功构建了以云原生数据仓库为核心的高效、低成本 Data+AI 一体化数据处理平台,有效应对业务高速迭代与弹性扩展挑战。