阿里云大数据AI产品月刊-2025年8月

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,1000CU*H 3个月
简介: 阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

一、产品功能发布

人工智能平台 PAI - EAS发布Prefill-Decode分离功能

EAS发布PD分离功能,包含静态PD分离、动态PD分离等多种部署模式,支持vLLM/SGLang/BladeLLM等多种推理引擎,帮助客户降低推理延迟。

人工智能平台 PAI - 模型权重服务功能发布

模型权重服务功能,大幅降低冷启动与扩容时长,解决模型加载耗时过长的业界难题,破解LLM超大规模部署效能瓶颈。

人工智能平台 PAI - DLC 自研Custom任务正式发布(v1.0)

DLC 自研分布式框架 Custom,该框架任务支持PAI 调度策略,自愈能力,同时提供自定义角色、成功策略、扩展端口等高阶能力,满足大模型后训练,自动驾驶等多种业务场景的计算能力。

人工智能平台 PAI - AI资源组(灵骏智算)支持按量购买(后付费+节省计划)

AI资源组(灵骏智算)支持按量购买,结合节省计划,提供购买时间长自动匹配折扣力度产品能力(1年/3年/5年购买时间越长,折扣越大),为用户提供更加灵活、性价比更高的使用方式。

人工智能平台 PAI - DataJuicer on DLC 正式发布

DLC 支持提交DataJuicer框架任务,通过多算子(100+)、多规模(单节点、多节点)、高可用(自愈),高效完成大规模数据的清洗、过滤、转换和增强,实现大模型场景文本及多模态数据处理计算能力。

人工智能平台 PAI - 发布模型评测中心v1.0

开箱即用,无需代码开发即可完成端到端的模型评测链路,快速评估模型能力是否适合客户自身业务场景。

人工智能平台 PAI - EAS支持EP专家并行部署

EAS支持了专家并行(Expert Parallelism, EP)部署,为客户提供了MoE模型的高性能推理部署方案。

云原生大数据计算服务 MaxCompute - 外部项目方式联邦计算湖上Paimon格式数据公测

MaxCompute提供外部项目方式,映射Paimon Catalog,并读取计算Paimon数据。

大数据开发治理平台 DataWorks - DataWorks ChatBI

DataWorks ChatBI用“对话式分析”打破数据使用壁垒,驱动企业降本增效与决策升级,通过降低数据消费门槛,让每一名企业内用户都能成为数据价值的创造者。

大数据开发治理平台 DataWorks - 数据集成支持使用大模型在同步过程中进行数据处理

单表离线同步支持在同步过程中使用大模型对同步的数据进行处理,如翻译、归类、情感分析等。

大数据开发治理平台 DataWorks - 数据集成支持对数据做Embedding操作

可对数据进行Embedding向量化,然后存储到向量数据库中,方便多模态数据的开发和使用。

大数据开发治理平台 DataWorks - 数据质量支持SQLServer

支持通过where语句限定质量监控范围,对SQL Server表的数据质量进行监控。

大数据开发治理平台 DataWorks - 数据地图支持数据集管理

数据地图支持OSS/NAS文件注册为数据集,以在数据开发中进行使用,满足用户对非结构化数据进行管理诉求。

大数据开发治理平台 DataWorks - 数据治理计划支持责任人过滤

数据治理计划支持选择推进问题时,新增对应问题责任人等条件进行过滤,便于缩小单次治理计划涉及范围。

大数据开发治理平台 DataWorks - 支持通过DSL风格OPENAPI进行数据质量监控管理

通过标准化Spec,帮助用户可快速定义和配置数据质量规则,实现自动化工具的对接,提高数据治理和运维的效率。

大数据开发治理平台 DataWorks - 数据地图支持DLF 2.5元数据

可对DLF 2.5的元数据进行自动获取和搜索,同时支持DLF 2.5 Paimon Catalog表的详情展现。

大数据开发治理平台 DataWorks - EMR相关计算资源支持多种信息配置

EMR Serverless Spark计算资源支持配置Kyuubi信息并在数据开发中使用EMR Kyuubi任务类型; 支持配置DataWorks租户成员的云账号与LDAP账号的映射关系。

大数据开发治理平台 DataWorks - Notebook中支持快捷创建并启动Livy服务

可在Python单元格中通过Magic Commands来快捷创建并启动Livy服务,实现PySpark作业的高效开发与调试。

大数据开发治理平台 DataWorks - 管控台工作空间支持配置工作空间模板

板定义DataWorks工作空间中可使用的工具、资源和功能,帮助用户快速开启工作空间。

大数据开发治理平台 DataWorks - OpenLake解决方案页支持创建工作空间

可通过DataWorks的工作空间模块快速创建适用于OpenLake解决方案的工作空间。

大数据开发治理平台 DataWorks - 简单模式工作空间升级到标准模式工作空间体验优化

支持在升级过程中撤销MaxCompute项目的权限;支持用户使用MaxCompute的MMS工具迁移数据资产。

大数据开发治理平台 DataWorks - 数据集成支持代码审核能力

数据集成同步任务支持在启动前进行代码审核,可通过强制审核开关控制,保障任务高质量发布。

大数据开发治理平台 DataWorks - 支持公共数据集作为数据源供用户使用

支持公共数据集成作为数据来源,方便将公共数据源应用到用户业务中。

大数据开发治理平台 DataWorks - MongoDB同步至MaxCompute支持正则

来源为MongoDB的库表在整库离线同步至MaxCompute时可以使用正则方式批量的配置。

实时计算 Flink版 - Flink同城高可用能力在更多Region开服

Flink同城高可用能力新增开通日本(东京)、美国(弗吉尼亚)、德国(法兰克福)、英国(伦敦)、美国(硅谷) 、马来西亚(吉隆坡)华东1、华东2、华南1金融云地域。

检索分析服务 Elasticsearch版 - ES Serverless 优化创建流程

Elasticsearch Serverless产品将会在用户首次新建该产品资源时,自动为用户开通,无需用户手动开通服务。

检索分析服务 Elasticsearch版 - ES Serverless版新增超限额内存费计费项

检索增强型8.17版将于北京时间2025年08月29日10:00起,在原先计费项的基础上新增超限额内存费用计费项的计费。

智能开放搜索 OpenSearch - AI搜索开放平台支持向量模型微调

向量模型可捕捉文本深层语义信息,同时具备跨语言和跨模态特性,在智能搜索、RAG场景广泛应用,对于业务效果影响至关重要。但同时,向量模型训练数据的覆盖度对于最终效果也有较大影响,基于通用向量模型在垂直领域效果较难保障,因此,可针对通用向量模型结合业务数据进行定向微调,提升检索效果。

智能开放搜索 OpenSearch - AI搜索开放平台法兰克福开服

AI搜索开放平台发布法兰克福区域,围绕智能搜索及RAG场景,将AI搜索链路中用到的算法服务以组件化形式提供,内置文档解析、文档切片、文本向量化、查询分析、召回、排序、效果评估以及LLM模型服务,开发者可根据自身情况灵活选择组件服务进行搜索业务开发。

二、产品快讯

[VLDB 2025]阿里云大数据AI平台多篇论文被收录

阿里云大数据 AI 平台共有3篇论文被 VLDB 2025 收录,研究方向包括 Flink 2.0 存算分离、跨窗口对比学习异常检测和多模态慢查询根因排序。

阿里云大数据AI平台登顶 NL2SQL 权威榜单 Spider 2.0

阿里云 PAI 与 DataWorks 推出 DB-Surfer NL2SQL Agent,在 Spider 2.0 榜单登顶,执行准确率 59.78%。 通过“规划-执行-后处理”架构,实现复杂场景下自然语言到 SQL 的高效转换,已集成至 DataWorks Copilot,提升数据开发效率超 35%。

【新模型速递】PAI-Model Gallery云上一键部署gpt-oss系列模型

阿里云 PAI-Model Gallery 支持一键部署 OpenAI 开源的 gpt-oss 系列模型,提供零代码、企业级、安全可控的云上推理服务,助力开发者高效构建 AI 应用。

模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验

通义千问 Qwen3-Coder 开源,阿里云PAI支持云上一键部署,提供免费使用计划。开发者可通过 PAI-DSW 环境配置、Agentic CLI 交互及 WebIDE 调用模型,高效完成代码生成与 Notebook 开发,助力企业级AI应用。

PAIFuser:面向图像视频的训练推理加速框架

阿里云 PAI 推出 PAIFuser 框架,专为视频生成 Diffusion 模型优化,支持高效训练与推理。 通过模型并行、量化、稀疏计算等技术,在多卡场景下显著提升性能,训练 MFU 超 40%,推理耗时降低 80%+,加速 AIGC 落地。

MaxCompute聚簇优化推荐功能发布,单日节省2PB Shuffle、7000+CU!

MaxCompute 推出聚簇优化推荐功能,基于31天历史数据自动分析 Shuffle 依赖,智能推荐 Hash Cluster Key,减少 IO 与网络传输。 支持全局 DAG 感知、倾斜检测与收益评估,一键生成优化脚本,显著降低计算成本,提升查询效率,助力企业高效数据治理。

阿里云Elasticsearch Serverless节省计划来啦!预付抵扣包享最高7折优惠!

阿里云 ES Serverless 凭借全文检索、多模态分析等优势,助力企业构建智能应用。新推节省计划支持按量付费折扣,用户预付消费享7-85折优惠,灵活降本。无需运维集群,弹性扩缩,兼容AI模型,提升搜索、日志分析等场景效率,实现高可靠数据中台。

Elasticsearch 8.17 智能检索升级全攻略

阿里云 Elasticsearch Serverless 8.17 全面升级,提升向量检索性能、智能弹性调度与成本优化,结合 AI 搜索开放平台,助力企业高效构建 RAG、多模态搜索等智能应用,实现高性能、免运维、低成本的搜索体验。

阿里云 Milvus 节省计划来袭:4 折抵扣按量账单,59 元起玩转向量检索!

阿里云 Milvus 推出节省计划,59 元起享按量账单 4 折优惠,支持多模态检索、RAG、广告推荐等场景。 兼容开源,全托管免运维,助力企业低成本构建高效向量搜索应用。

三、最佳实践

基于PAI-ChatLearn的GSPO强化学习实践

阿里云 PAI-ChatLearn 支持 GSPO 强化学习算法,提升 MoE 模型训练稳定性与效率。 全链路集成 Docker、MATH-lighteval、Qwen3-30B-A3B 与 MCore,2机8xH20 高效训练,收敛优于 GRPO,验证算法优势。

【跨国数仓迁移最佳实践4】MaxCompute 企业级能力升级:跨域访问控制与数据安全特性增强

MaxCompute 构建多层级权限架构,支持跨账号、多业务细粒度管控。 结合策略标签实现动态脱敏与列级权限,赋能 GoTerra 跨项目协作。 已落地印尼,未来探索 AI 驱动的智能权限推荐与自动脱敏。

【跨国数仓迁移最佳实践5】MaxCompute近线查询解决方案助力物流电商等实时场景实现高效查询

GoTerra 从 BigQuery 迁移至 MaxCompute,采用 MaxQA 解决高延迟场景。MaxQA 通过独享资源池、缓存机制 和 弹性扩缩容,显著提升 BI 报表、即席查询 等业务性能,查询效率提升 100%。支持 SQL 兼容与智能调度,保障业务连续性,未来将持续优化 Pipeline 架构与自动化运维。

【跨国数仓迁移最佳实践6】MaxCompute SQL语法及函数功能增强,10万条SQL转写顺利迁移

MaxCompute 为支持 GoTerra 业务迁移,增强 SQL 兼容性,新增 Auto Partition、UNNEST、30+ 内建函数,并推出 bigquery 兼容模式,实现语法行为对齐。 配合转换工具,高效完成 10 万条 SQL 迁移,保障业务平稳过渡,提升查询性能与用户体验。

【跨国数仓迁移最佳实践7】基于 MaxCompute 多租的大数据平台架构

阿里云 MaxCompute 通过增强跨租户数据访问、权限控制与元数据发现能力,结合 RAM 跨账号授权,实现 GoTerra 类似 GCP 的多租大数据架构,支持集团型企业控制平面统一管理、数据平面隔离的合规需求。

【跨国数仓迁移最佳实践8】MaxCompute Streaming Insert:大数据数据流写业务迁移的实践与突破

MaxCompute Streaming Insert 支持高吞吐、低延迟流式写入,助力 GoTerra 无缝迁移 BigQuery 实时业务,实现数据实时可见、自动 Schema 演进与高效运维。

ODPS十五周年实录|构建 AI 时代的大数据基础设施

ODPS 迎来 15 周年,全面升级 SQL 引擎、实时计算、湖仓一体与 Data+AI 融合。 支持多模态数据统一管理,推出 Delta Live MV 与 MaxQA 实现增全量一体计算。 通过 SQL AI Function 与异构算力,赋能低门槛 AI 推理。 DataWorks Copilot 与 ChatBI 提升开发与分析效率,助力企业智能化转型。

ODPS十五周年实录|为 AI 而生的数据平台

阿里云 ODPS 迎 15 周年,全面升级为 AI 原生大数据平台。 融合 Data + AI 双引擎,支持多模态计算、湖仓一体与智能开发,以超大规模算力、极致性价比和全链路 AI 赋能,助力企业实现数据价值显性化与智能化转型。

ODPS 十五周年实录 | Data + AI,MaxCompute 下一个15年的新增长引擎

MaxCompute 推出 MaxFrame 与 AI Function,支持 Python 原生计算与多模态数据处理,助力大模型预训练、自动驾驶等场景。 依托弹性算力与 Serverless 架构,实现高效、稳定、低成本的 Data + AI 一体化计算。

DataWorks千万级任务调度与全链路集成开发治理赋能智能驾驶技术突破

DataWorks 凭借千万级调度引擎与多源集成能力,支撑智能驾驶数据高效预处理。 实现百万并发、跨引擎编排,兼容主流 AI 框架,提升 20% 效率,助力端到端数据产线高可用运行。

鹰角网络基于阿里云EMR Serverless StarRocks的实时分析工程实践

鹰角网络基于阿里云 EMR Serverless StarRocks 构建实时数仓,实现查询性能提升 30%、QPS 承载提升 5 倍,降低运维复杂度与硬件成本 22%,支撑游戏业务高效运营与实时决策。

从“字”到“画”:基于Elasticsearch Serverless 的多模态商品搜索实践

多模态搜索革新电商体验,结合文本与视觉检索,提升精准度。 Elasticsearch Serverless 实现免运维、低成本、高弹性及 AI 深度集成。

阿里云 AI 搜索 DeepSearch 技术实践

阿里云 OpenSearch LLM 版升级至 RAG 2.0,推出 DeepSearch 多智能体系统,支持规划、搜索、阅读、反思闭环。 通过多 Agent 协同提升复杂问题解答能力,实现多跳推理与知识融合,推动 AI 搜索向智能理解迈进。AI 搜索不止于搜索,而在于理解与创造。

Milvus x n8n:自动化拆解Github文档,零代码构建领域知识智能问答

Milvus 结合 n8n 实现企业级智能问答,解决知识滞后与信息幻觉问题。通过 GitHub 实时同步文档至向量库,支持高效检索与动态 Schema 管理。大模型增强问答准确率,降低维护成本。集成 OpenTelemetry 实现 可观测性,对接 阿里云 SLS 进行链路追踪。

通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统

阿里云 Milvus 2.5 集成 Tantivy 与 Sparse-BM25,支持全文检索与动态词频统计。 内置分词器实现中英文预处理,混合稀疏/稠密向量检索,RRF 优化排序,亿级数据毫秒响应,赋能 RAG 与多模态 AI 应用。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
2月前
|
人工智能 文字识别 监控
|
2月前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
2657 166
|
2月前
|
人工智能 vr&ar UED
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
|
2月前
|
机器学习/深度学习 人工智能 Serverless
吉利汽车携手阿里云函数计算,打造新一代 AI 座舱推理引擎
当前吉利汽车研究院人工智能团队承担了吉利汽车座舱 AI 智能化的方案建设,在和阿里云的合作中,基于星睿智算中心 2.0 的 23.5EFLOPS 强大算力,构建 AI 混合云架构,面向百万级用户的实时推理计算引入阿里云函数计算的 Serverless GPU 算力集群,共同为智能座舱的交互和娱乐功能提供大模型推理业务服务,涵盖的场景如针对模糊指令的复杂意图解析、文生图、情感 TTS 等。
|
2月前
|
机器学习/深度学习 人工智能 算法
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
NBA中国与阿里云达成合作,首发360°实时回放技术,融合AI视觉引擎,实现多视角、低延时、沉浸式观赛新体验,重新定义体育赛事观看方式。
357 0
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
|
2月前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。
|
3月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
203 14
|
5月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
172 4
|
4月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
164 0

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute