阿里云大数据AI产品月刊-2025年8月

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

一、产品功能发布

人工智能平台 PAI - EAS发布Prefill-Decode分离功能

EAS发布PD分离功能,包含静态PD分离、动态PD分离等多种部署模式,支持vLLM/SGLang/BladeLLM等多种推理引擎,帮助客户降低推理延迟。

人工智能平台 PAI - 模型权重服务功能发布

模型权重服务功能,大幅降低冷启动与扩容时长,解决模型加载耗时过长的业界难题,破解LLM超大规模部署效能瓶颈。

人工智能平台 PAI - DLC 自研Custom任务正式发布(v1.0)

DLC 自研分布式框架 Custom,该框架任务支持PAI 调度策略,自愈能力,同时提供自定义角色、成功策略、扩展端口等高阶能力,满足大模型后训练,自动驾驶等多种业务场景的计算能力。

人工智能平台 PAI - AI资源组(灵骏智算)支持按量购买(后付费+节省计划)

AI资源组(灵骏智算)支持按量购买,结合节省计划,提供购买时间长自动匹配折扣力度产品能力(1年/3年/5年购买时间越长,折扣越大),为用户提供更加灵活、性价比更高的使用方式。

人工智能平台 PAI - DataJuicer on DLC 正式发布

DLC 支持提交DataJuicer框架任务,通过多算子(100+)、多规模(单节点、多节点)、高可用(自愈),高效完成大规模数据的清洗、过滤、转换和增强,实现大模型场景文本及多模态数据处理计算能力。

人工智能平台 PAI - 发布模型评测中心v1.0

开箱即用,无需代码开发即可完成端到端的模型评测链路,快速评估模型能力是否适合客户自身业务场景。

人工智能平台 PAI - EAS支持EP专家并行部署

EAS支持了专家并行(Expert Parallelism, EP)部署,为客户提供了MoE模型的高性能推理部署方案。

云原生大数据计算服务 MaxCompute - 外部项目方式联邦计算湖上Paimon格式数据公测

MaxCompute提供外部项目方式,映射Paimon Catalog,并读取计算Paimon数据。

大数据开发治理平台 DataWorks - DataWorks ChatBI

DataWorks ChatBI用“对话式分析”打破数据使用壁垒,驱动企业降本增效与决策升级,通过降低数据消费门槛,让每一名企业内用户都能成为数据价值的创造者。

大数据开发治理平台 DataWorks - 数据集成支持使用大模型在同步过程中进行数据处理

单表离线同步支持在同步过程中使用大模型对同步的数据进行处理,如翻译、归类、情感分析等。

大数据开发治理平台 DataWorks - 数据集成支持对数据做Embedding操作

可对数据进行Embedding向量化,然后存储到向量数据库中,方便多模态数据的开发和使用。

大数据开发治理平台 DataWorks - 数据质量支持SQLServer

支持通过where语句限定质量监控范围,对SQL Server表的数据质量进行监控。

大数据开发治理平台 DataWorks - 数据地图支持数据集管理

数据地图支持OSS/NAS文件注册为数据集,以在数据开发中进行使用,满足用户对非结构化数据进行管理诉求。

大数据开发治理平台 DataWorks - 数据治理计划支持责任人过滤

数据治理计划支持选择推进问题时,新增对应问题责任人等条件进行过滤,便于缩小单次治理计划涉及范围。

大数据开发治理平台 DataWorks - 支持通过DSL风格OPENAPI进行数据质量监控管理

通过标准化Spec,帮助用户可快速定义和配置数据质量规则,实现自动化工具的对接,提高数据治理和运维的效率。

大数据开发治理平台 DataWorks - 数据地图支持DLF 2.5元数据

可对DLF 2.5的元数据进行自动获取和搜索,同时支持DLF 2.5 Paimon Catalog表的详情展现。

大数据开发治理平台 DataWorks - EMR相关计算资源支持多种信息配置

EMR Serverless Spark计算资源支持配置Kyuubi信息并在数据开发中使用EMR Kyuubi任务类型; 支持配置DataWorks租户成员的云账号与LDAP账号的映射关系。

大数据开发治理平台 DataWorks - Notebook中支持快捷创建并启动Livy服务

可在Python单元格中通过Magic Commands来快捷创建并启动Livy服务,实现PySpark作业的高效开发与调试。

大数据开发治理平台 DataWorks - 管控台工作空间支持配置工作空间模板

板定义DataWorks工作空间中可使用的工具、资源和功能,帮助用户快速开启工作空间。

大数据开发治理平台 DataWorks - OpenLake解决方案页支持创建工作空间

可通过DataWorks的工作空间模块快速创建适用于OpenLake解决方案的工作空间。

大数据开发治理平台 DataWorks - 简单模式工作空间升级到标准模式工作空间体验优化

支持在升级过程中撤销MaxCompute项目的权限;支持用户使用MaxCompute的MMS工具迁移数据资产。

大数据开发治理平台 DataWorks - 数据集成支持代码审核能力

数据集成同步任务支持在启动前进行代码审核,可通过强制审核开关控制,保障任务高质量发布。

大数据开发治理平台 DataWorks - 支持公共数据集作为数据源供用户使用

支持公共数据集成作为数据来源,方便将公共数据源应用到用户业务中。

大数据开发治理平台 DataWorks - MongoDB同步至MaxCompute支持正则

来源为MongoDB的库表在整库离线同步至MaxCompute时可以使用正则方式批量的配置。

实时计算 Flink版 - Flink同城高可用能力在更多Region开服

Flink同城高可用能力新增开通日本(东京)、美国(弗吉尼亚)、德国(法兰克福)、英国(伦敦)、美国(硅谷) 、马来西亚(吉隆坡)华东1、华东2、华南1金融云地域。

检索分析服务 Elasticsearch版 - ES Serverless 优化创建流程

Elasticsearch Serverless产品将会在用户首次新建该产品资源时,自动为用户开通,无需用户手动开通服务。

检索分析服务 Elasticsearch版 - ES Serverless版新增超限额内存费计费项

检索增强型8.17版将于北京时间2025年08月29日10:00起,在原先计费项的基础上新增超限额内存费用计费项的计费。

智能开放搜索 OpenSearch - AI搜索开放平台支持向量模型微调

向量模型可捕捉文本深层语义信息,同时具备跨语言和跨模态特性,在智能搜索、RAG场景广泛应用,对于业务效果影响至关重要。但同时,向量模型训练数据的覆盖度对于最终效果也有较大影响,基于通用向量模型在垂直领域效果较难保障,因此,可针对通用向量模型结合业务数据进行定向微调,提升检索效果。

智能开放搜索 OpenSearch - AI搜索开放平台法兰克福开服

AI搜索开放平台发布法兰克福区域,围绕智能搜索及RAG场景,将AI搜索链路中用到的算法服务以组件化形式提供,内置文档解析、文档切片、文本向量化、查询分析、召回、排序、效果评估以及LLM模型服务,开发者可根据自身情况灵活选择组件服务进行搜索业务开发。

二、产品快讯

[VLDB 2025]阿里云大数据AI平台多篇论文被收录

阿里云大数据 AI 平台共有3篇论文被 VLDB 2025 收录,研究方向包括 Flink 2.0 存算分离、跨窗口对比学习异常检测和多模态慢查询根因排序。

阿里云大数据AI平台登顶 NL2SQL 权威榜单 Spider 2.0

阿里云 PAI 与 DataWorks 推出 DB-Surfer NL2SQL Agent,在 Spider 2.0 榜单登顶,执行准确率 59.78%。 通过“规划-执行-后处理”架构,实现复杂场景下自然语言到 SQL 的高效转换,已集成至 DataWorks Copilot,提升数据开发效率超 35%。

【新模型速递】PAI-Model Gallery云上一键部署gpt-oss系列模型

阿里云 PAI-Model Gallery 支持一键部署 OpenAI 开源的 gpt-oss 系列模型,提供零代码、企业级、安全可控的云上推理服务,助力开发者高效构建 AI 应用。

模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验

通义千问 Qwen3-Coder 开源,阿里云PAI支持云上一键部署,提供免费使用计划。开发者可通过 PAI-DSW 环境配置、Agentic CLI 交互及 WebIDE 调用模型,高效完成代码生成与 Notebook 开发,助力企业级AI应用。

PAIFuser:面向图像视频的训练推理加速框架

阿里云 PAI 推出 PAIFuser 框架,专为视频生成 Diffusion 模型优化,支持高效训练与推理。 通过模型并行、量化、稀疏计算等技术,在多卡场景下显著提升性能,训练 MFU 超 40%,推理耗时降低 80%+,加速 AIGC 落地。

MaxCompute聚簇优化推荐功能发布,单日节省2PB Shuffle、7000+CU!

MaxCompute 推出聚簇优化推荐功能,基于31天历史数据自动分析 Shuffle 依赖,智能推荐 Hash Cluster Key,减少 IO 与网络传输。 支持全局 DAG 感知、倾斜检测与收益评估,一键生成优化脚本,显著降低计算成本,提升查询效率,助力企业高效数据治理。

阿里云Elasticsearch Serverless节省计划来啦!预付抵扣包享最高7折优惠!

阿里云 ES Serverless 凭借全文检索、多模态分析等优势,助力企业构建智能应用。新推节省计划支持按量付费折扣,用户预付消费享7-85折优惠,灵活降本。无需运维集群,弹性扩缩,兼容AI模型,提升搜索、日志分析等场景效率,实现高可靠数据中台。

Elasticsearch 8.17 智能检索升级全攻略

阿里云 Elasticsearch Serverless 8.17 全面升级,提升向量检索性能、智能弹性调度与成本优化,结合 AI 搜索开放平台,助力企业高效构建 RAG、多模态搜索等智能应用,实现高性能、免运维、低成本的搜索体验。

阿里云 Milvus 节省计划来袭:4 折抵扣按量账单,59 元起玩转向量检索!

阿里云 Milvus 推出节省计划,59 元起享按量账单 4 折优惠,支持多模态检索、RAG、广告推荐等场景。 兼容开源,全托管免运维,助力企业低成本构建高效向量搜索应用。

三、最佳实践

基于PAI-ChatLearn的GSPO强化学习实践

阿里云 PAI-ChatLearn 支持 GSPO 强化学习算法,提升 MoE 模型训练稳定性与效率。 全链路集成 Docker、MATH-lighteval、Qwen3-30B-A3B 与 MCore,2机8xH20 高效训练,收敛优于 GRPO,验证算法优势。

【跨国数仓迁移最佳实践4】MaxCompute 企业级能力升级:跨域访问控制与数据安全特性增强

MaxCompute 构建多层级权限架构,支持跨账号、多业务细粒度管控。 结合策略标签实现动态脱敏与列级权限,赋能 GoTerra 跨项目协作。 已落地印尼,未来探索 AI 驱动的智能权限推荐与自动脱敏。

【跨国数仓迁移最佳实践5】MaxCompute近线查询解决方案助力物流电商等实时场景实现高效查询

GoTerra 从 BigQuery 迁移至 MaxCompute,采用 MaxQA 解决高延迟场景。MaxQA 通过独享资源池、缓存机制 和 弹性扩缩容,显著提升 BI 报表、即席查询 等业务性能,查询效率提升 100%。支持 SQL 兼容与智能调度,保障业务连续性,未来将持续优化 Pipeline 架构与自动化运维。

【跨国数仓迁移最佳实践6】MaxCompute SQL语法及函数功能增强,10万条SQL转写顺利迁移

MaxCompute 为支持 GoTerra 业务迁移,增强 SQL 兼容性,新增 Auto Partition、UNNEST、30+ 内建函数,并推出 bigquery 兼容模式,实现语法行为对齐。 配合转换工具,高效完成 10 万条 SQL 迁移,保障业务平稳过渡,提升查询性能与用户体验。

【跨国数仓迁移最佳实践7】基于 MaxCompute 多租的大数据平台架构

阿里云 MaxCompute 通过增强跨租户数据访问、权限控制与元数据发现能力,结合 RAM 跨账号授权,实现 GoTerra 类似 GCP 的多租大数据架构,支持集团型企业控制平面统一管理、数据平面隔离的合规需求。

【跨国数仓迁移最佳实践8】MaxCompute Streaming Insert:大数据数据流写业务迁移的实践与突破

MaxCompute Streaming Insert 支持高吞吐、低延迟流式写入,助力 GoTerra 无缝迁移 BigQuery 实时业务,实现数据实时可见、自动 Schema 演进与高效运维。

ODPS十五周年实录|构建 AI 时代的大数据基础设施

ODPS 迎来 15 周年,全面升级 SQL 引擎、实时计算、湖仓一体与 Data+AI 融合。 支持多模态数据统一管理,推出 Delta Live MV 与 MaxQA 实现增全量一体计算。 通过 SQL AI Function 与异构算力,赋能低门槛 AI 推理。 DataWorks Copilot 与 ChatBI 提升开发与分析效率,助力企业智能化转型。

ODPS十五周年实录|为 AI 而生的数据平台

阿里云 ODPS 迎 15 周年,全面升级为 AI 原生大数据平台。 融合 Data + AI 双引擎,支持多模态计算、湖仓一体与智能开发,以超大规模算力、极致性价比和全链路 AI 赋能,助力企业实现数据价值显性化与智能化转型。

ODPS 十五周年实录 | Data + AI,MaxCompute 下一个15年的新增长引擎

MaxCompute 推出 MaxFrame 与 AI Function,支持 Python 原生计算与多模态数据处理,助力大模型预训练、自动驾驶等场景。 依托弹性算力与 Serverless 架构,实现高效、稳定、低成本的 Data + AI 一体化计算。

DataWorks千万级任务调度与全链路集成开发治理赋能智能驾驶技术突破

DataWorks 凭借千万级调度引擎与多源集成能力,支撑智能驾驶数据高效预处理。 实现百万并发、跨引擎编排,兼容主流 AI 框架,提升 20% 效率,助力端到端数据产线高可用运行。

鹰角网络基于阿里云EMR Serverless StarRocks的实时分析工程实践

鹰角网络基于阿里云 EMR Serverless StarRocks 构建实时数仓,实现查询性能提升 30%、QPS 承载提升 5 倍,降低运维复杂度与硬件成本 22%,支撑游戏业务高效运营与实时决策。

从“字”到“画”:基于Elasticsearch Serverless 的多模态商品搜索实践

多模态搜索革新电商体验,结合文本与视觉检索,提升精准度。 Elasticsearch Serverless 实现免运维、低成本、高弹性及 AI 深度集成。

阿里云 AI 搜索 DeepSearch 技术实践

阿里云 OpenSearch LLM 版升级至 RAG 2.0,推出 DeepSearch 多智能体系统,支持规划、搜索、阅读、反思闭环。 通过多 Agent 协同提升复杂问题解答能力,实现多跳推理与知识融合,推动 AI 搜索向智能理解迈进。AI 搜索不止于搜索,而在于理解与创造。

Milvus x n8n:自动化拆解Github文档,零代码构建领域知识智能问答

Milvus 结合 n8n 实现企业级智能问答,解决知识滞后与信息幻觉问题。通过 GitHub 实时同步文档至向量库,支持高效检索与动态 Schema 管理。大模型增强问答准确率,降低维护成本。集成 OpenTelemetry 实现 可观测性,对接 阿里云 SLS 进行链路追踪。

通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统

阿里云 Milvus 2.5 集成 Tantivy 与 Sparse-BM25,支持全文检索与动态词频统计。 内置分词器实现中英文预处理,混合稀疏/稠密向量检索,RRF 优化排序,亿级数据毫秒响应,赋能 RAG 与多模态 AI 应用。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
24天前
|
人工智能 运维 监控
让天下没有难查的故障:2025 阿里云 AI 原生编程挑战赛正式启动
本次大赛由阿里云主办,云原生应用平台承办,聚焦 Operation Intelligence 的智能运维(AIOps)赛道,为热爱 AI 技术的开发者提供发挥创意和想象力的舞台,借助 LLM 强大的推理能力与标准化整合的多源可观测数据,找到 AI 应用在智能运维(AIOps)场景上的新方式。
225 31
|
1月前
|
存储 弹性计算 运维
AI时代下阿里云基础设施的稳定性架构揭秘
计算、存储、网络作为云计算基础 IaaS 服务,一直是阿里云的核心产品,承载着百万客户的 IT 基础设施。曾经我们认为应用高可用、服务分布式可以满足客户对 IaaS 所有的稳定性诉求。
249 2
AI时代下阿里云基础设施的稳定性架构揭秘
|
21天前
|
SQL 人工智能 自然语言处理
阿里云 CIO 蒋林泉:AI 大模型时代,我们如何用 RIDE 实现 RaaS 的首次落地?
本文整理自阿里云智能集团 CIO 蒋林泉在 AICon 2025 深圳的演讲,分享了阿里云在大模型应用落地中的实践经验。通过多个数字人项目案例,探讨了企业在 AI 应用中的组织转型、业务识别、产品定义与工程落地等关键环节,并提出了 RIDE 方法论(重组、识别、定义、执行),助力企业实现 AI 有效落地。
|
8天前
|
人工智能 机器人 新能源
深化新工科建设 共探智能新未来 | 阿里云支持南京大学苏州校区“AI DAY”盛大启幕丨云工开物
9月12日,南京大学苏州校区举办“AI新视界:深化新工科建设进行式”活动,采用教师与学生双专场模式,通过主题分享、实践演练、产业课题发布等形式,搭建产教融合AI交流平台,助力未来产业科技人才培养。
|
2天前
|
人工智能 机器人 Serverless
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
当云计算遇见具身智能,AI咖啡开启零售新体验。用户通过手机生成个性化图像,云端AI快速渲染,机器人精准复刻于咖啡奶泡之上,90秒内完成一杯可饮用的艺术品。该方案融合阿里云FunctionAI生图能力与安诺机器人高精度执行系统,实现AIGC创意到实体呈现的闭环,为线下零售提供低成本、高互动、易部署的智能化升级路径,已在商场、机场、展馆等场景落地应用。
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
|
4天前
|
存储 人工智能 监控
如何用RAG增强的动态能力与大模型结合打造企业AI产品?
客户的问题往往涉及最新的政策变化、复杂的业务规则,数据量越来越多,而大模型对这些私有知识和上下文信息的理解总是差强人意。
26 2
|
30天前
|
人工智能 弹性计算 自然语言处理
云速搭 AI 助理发布:对话式生成可部署的阿里云架构图
阿里云云速搭 CADT(Cloud Architect Design Tools)推出智能化升级——云小搭,一款基于大模型的 AI 云架构助手,致力于让每一位用户都能“动动嘴”就完成专业级云架构设计。
381 31
|
17天前
|
人工智能 API
阿里云百炼API-KEY在哪查询?如何获取阿里云AI百炼大模型的API-KEY?
阿里云百炼是阿里云推出的AI大模型平台,用户可通过其管理控制台获取API-KEY。需先开通百炼平台及大模型服务,即可创建并复制API-KEY。目前平台提供千万tokens免费额度,详细操作流程可参考官方指引。
|
1月前
|
存储 人工智能 编解码
阿里云GPU云服务器深度评测:算力怪兽如何重塑AI与图形处理的未来?
在AI与高性能计算需求激增的今天,传统CPU已难满足“暴力计算”需求。阿里云GPU云服务器依托NVIDIA顶级显卡算力,结合专为GPU优化的神行工具包(DeepGPU),为深度学习、科学计算、图形渲染等领域提供高效、弹性的算力支持。本文全面解析其产品优势、工具链及六大真实应用场景,助你掌握AI时代的算力利器。
阿里云GPU云服务器深度评测:算力怪兽如何重塑AI与图形处理的未来?

相关产品

  • 云原生大数据计算服务 MaxCompute