一、产品功能发布
【云原生大数据计算服务 MaxCompute】新功能/规格 - MaxCompute 数据传输服务观测能力升级
通过优化指标数据采集和加工处理链路,提升数据的准确性,新增支持以项目维度查看资源用量能力,新增更多使用方式选项,丰富数据传输服务的可观测性,实现对更多分析场景和需求的支持。
【大数据开发治理平台 DataWorks】新功能/规格 - 数据资产治理新增数据质量治理计划
数据质量治理计划帮助用户快速发现数据质量问题并获取优化建议。
【大数据开发治理平台 DataWorks】新功能/规格 - 自定义镜像支持同步至 MaxCompute
支持在创建个人开发环境的自定义镜像时,同步生成 MaxCompute 的自定义镜像。
【大数据开发治理平台 DataWorks】功能优化 - 支持通过 RAM policy 实现对安全中心的访问
方便 RAM 用户/角色访问安全中心。
【大数据开发治理平台 DataWorks】功能优化 - 手动业务流程运维体验优化
支持运维大屏查看、新增筛选条件和排序方式,帮助用户提升运维效率。
【大数据开发治理平台 DataWorks】新功能/规格 - 数据地图新增支持多个数据源租户级数据目录
新增 Data Lake Formation、Hologres 租户视角数据目录能力,帮助快速了解数据。
【大数据开发治理平台 DataWorks】新功能/规格 - 数据集成新增火山引擎 TOS 数据源
可通过 DataWorks 获取火山引擎 TOS 中存储的文件,解析并离线同步至任意目标数据源。
【大数据开发治理平台 DataWorks】新功能/规格 - 数据集成针对特定任务新增支持方式
PostgreSQL 至 Hologres 整库实时同步任务支持根据已有字段生成 Hologres 分区。
【大数据开发治理平台 DataWorks】新功能/规格 - 数据质量智能规则生成支持波动类规则
帮助提升周期产出数据的完整性校验的配置效率。
【大数据开发治理平台 DataWorks】新功能/规格 - 数据开发支持冒烟测试
方便用户能够在不影响线上数据的前提下,查看调度节点的任务执行情况。
【开源大数据平台 E-MapReduce】新功能/规格 - Serverless StarRocks 支持日志查询
StarRocks 支持日志查询功能,通过该功能可以查询详细实例日志进行任务的异常定位
【开源大数据平台 E-MapReduce】新地域/新可用区 - 全托管 StarRocks 在日本(东京)正式开服
Serverless StarRocks 新增开通日本(东京)地域,可以在控制台上按需求开通集群。
【向量检索服务 Milvus 版】新功能/规格 - 新增按量计费模式
用户购买标准版时可按需选择按量计费模式。
【向量检索服务 Milvus 版】功能优化 - 管控平台能力多项升级
通过集群维度监控看板、日志查询、集群标签与资源组管理、资源计算器升级等方式提高用户运维效率。
二、产品快讯
人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒、白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。基于 EasyDistill 框架,PAI 进一步开源了 DistilQwen 模型系列,并且提供了蒸馏技术的实际应用案例 EasyDistill-Recipes,其推理能力超越了其他开源蒸馏模型。
DistilQwen-ThoughtX:变长思维链推理模型,能力超越 DeepSeek 蒸馏模型
人工智能平台 PAI 团队开发的 OmniThought 数据集,其中包含200万思维链,并标注了推理冗余度(RV)和认知难度(CD)分数。基于此数据集推出了 DistilQwen-ThoughtX 系列模型,可以通过 RV 和 CD 分数对思维链进行筛选,训练得到的模型获得根据问题和本身的认知能力,生成变长思维链的能力。同时在 EasyDistill 框架中开源了 OmniThought 数据集和 DistilQwen-ThoughtX 模型的全部权重。这些模型在性能上超过了 DeepSeek-R1-Distill 系列。
DataWorks x Qwen3:数据开发与分析效率再升级
DataWorks 平台正式接入 Qwen3模型,支持最大235B 参数量。用户可通过 DataWorks Copilot 智能助手调用该模型,以自然语言交互实现代码生成、优化、解释及纠错等功能,大幅提升数据开发与分析效率。
火热邀测 | DataWorks 数据集成支持大模型 AI 处理
大数据开发治理平台 DataWorks 数据集成智能升级,以"AI 释放数据价值"为核心,推出数据集成支持大模型 AI 处理功能,支持在数据同步过程中对数据进行高级分析和处理,帮助用户利用 AI 技术提升数据质量、挖掘数据价值,让数据集成与大模型无缝协同,为多行业多场景赋能企业 AI 落地。
Hologres x 函数计算 x Qwen3,对接MCP构建企业级数据分析 Agent
Hologres 联合函数计算FC 推出「基于 Qwen3 的企业级数据分析 Agent」方案,解决企业级数据分析 Agent 性能、部署、弹性的挑战。
AI 搜索开放平台 x Qwen3:智能搜索全栈解决方案新升级
AI 搜索开放平台与 Qwen3 模型的深度融合,为企业和开发者提供了从基础能力到复杂场景的全栈解决方案,让智能搜索的落地门槛更低、效率更高、体验更佳。
AI 搜索开放平台内置实践打磨的多模态数据解析、文档切分、文本向量、查询分析、大模型文本生成、效果测评等丰富的组件化服务以及开发模版,同时,可选多种引擎能力,用户可灵活调用,实现智能搜索、检索增强生成(RAG)、多模态搜索等搜索相关场景的搭建。本次阿里云 AI 搜索开放平台服务开发能力的发布,旨在通过集成 DSW 能力并新增 Notebook 功能,进一步提升用户编排效率。
三、最佳实践
DistilQwen2.5-DS3-0324蒸馏小模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践
DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍 DistilQwen2.5-DS3-0324蒸馏小模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践。
云上玩转 Qwen3系列之二:PAI-LangStudio 搭建联网搜索和 RAG 增强问答应用
通过 PAI-LangStudio 和 Qwen3 构建基于 RAG 和联网搜索 的 AI 智能问答应用。该应用通过将 RAG、web search 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了额外的联网搜索和特定领域知识库检索的能力,提升了智能回答的效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
云上玩转 Qwen3系列之三:PAI-LangStudio x Hologres 构建 ChatBI 数据分析 Agent 应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
Cosmos on PAI 系列一:PAI-Model Gallery 云上一键部署 NVIDIA Cosmos Reason-1
NVIDIA Cosmos 是一个世界基础模型(WFMs, world foundation models)开发平台,用于推动物理 AI 的发展,包含先进的视觉标记器、护栏以及加速视频数据处理工具管线。它专为加速智能驾驶汽车和机器人领域的合成数据生成、AI 模型训练与评估而设计。 阿里云人工智能平台 PAI 支持 Cosmos Reason-1进行快速部署使用。
构建 AI 时代的大数据基础设施- MaxCompute 多模态数据处理最佳实践
本方案通过 MaxCompute 提供面向多模态数据管理的表类型 Object Table,支持对 OSS 上的多模态图片数据进行元数据自动采集管理。同时,通过分布式 Python 计算框架 MaxFrame 完成对多模态数据处理开发,在 DataWorks 的 Notebook 中一站式完成多模态数据处理工作。
DataWorks x 婚礼纪:智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”
婚礼纪基于 DataWorks 构建的企业级大数据平台,通过湖仓一体架构与全链路数据治理体系,实现了多源异构数据的高效整合与价值挖掘,有效支撑了婚礼纪精准营销策略优化、智能广告投放、交易风控体系以及用户行为分析等核心业务场景。
EMR 作为云原生开源大数据平台,凭借其全栈技术生态、弹性资源和开箱即用的优势,已在多个行业头部企业中落地实践,覆盖云原生数据湖、实时湖仓分析、数据湖治理、机器学习等场景。本文精选多个标杆案例,解读 EMR 如何助力企业释放数据价值。
StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询
A+流量分析平台是阿里集团统一的全域流量数据分析平台,当前,流量采集团队每天需要的日志数据达到万亿级,在写入和查询面临着巨大挑战。在引入 StarRocks+Paimon 后,实现万亿级实时日志数据的秒级查询。Paimon 负责高效存储实时日志数据,StarRocks 作为计算引擎提供高性能查询能力。通过分桶表设计、Data Cache 优化及文件大小控制,解决了高吞吐写入和高并发查询挑战,查询延迟稳定在秒级,大幅提升日志分析效率。
Fusion 引擎赋能:流利说如何用阿里云 Serverless Spark 实现数仓计算加速
流利说基于阿里云 EMR Serverless Spark 构建高效数据平台,解决了原有半托管集群在弹性资源管理、成本、性能等方面的痛点。新架构采用 Serverless 模式实现按需计费,结合 Fusion 引擎使任务耗时减少40%,成本降低30%,失败率下降80%。平台整合 Airflow 调度、Hive 元数据管理和 OSS 存储,支持离线 ETL、数据集成和查询等场景,显著提升了任务执行效率与稳定性。