EasyDistill 框架简化了知识蒸馏过程，其具备多种功能模块，包括数据合成、基础和进阶蒸馏训练。通过数据合成，丰富训练集的多样性；基础和进阶蒸馏训练则涵盖黑盒、白盒知识转移策略、强化学习及偏好优化，从而提升小模型的性能。基于 EasyDistill 框架，PAI 进一步开源了 DistilQwen 模型系列，并且提供了蒸馏技术的实际应用案例 EasyDistill-Recipes，其推理能力超越了其他开源蒸馏模型。

DistilQwen-ThoughtX：变长思维链推理模型，能力超越 DeepSeek 蒸馏模型

人工智能平台 PAI 团队开发的 OmniThought 数据集，其中包含200万思维链，并标注了推理冗余度（RV）和认知难度（CD）分数。基于此数据集推出了 DistilQwen-ThoughtX 系列模型，可以通过 RV 和 CD 分数对思维链进行筛选，训练得到的模型获得根据问题和本身的认知能力，生成变长思维链的能力。同时在 EasyDistill 框架中开源了 OmniThought 数据集和 DistilQwen-ThoughtX 模型的全部权重。这些模型在性能上超过了 DeepSeek-R1-Distill 系列。

DataWorks x Qwen3：数据开发与分析效率再升级

DataWorks 平台正式接入 Qwen3模型，支持最大235B 参数量。用户可通过 DataWorks Copilot 智能助手调用该模型，以自然语言交互实现代码生成、优化、解释及纠错等功能，大幅提升数据开发与分析效率。

火热邀测 | DataWorks 数据集成支持大模型 AI 处理

大数据开发治理平台 DataWorks 数据集成智能升级，以"AI 释放数据价值"为核心，推出数据集成支持大模型 AI 处理功能，支持在数据同步过程中对数据进行高级分析和处理，帮助用户利用 AI 技术提升数据质量、挖掘数据价值，让数据集成与大模型无缝协同，为多行业多场景赋能企业 AI 落地。

Hologres x 函数计算 x Qwen3，对接MCP构建企业级数据分析 Agent

Hologres 联合函数计算FC 推出「基于 Qwen3 的企业级数据分析 Agent」方案，解决企业级数据分析 Agent 性能、部署、弹性的挑战。

AI 搜索开放平台 x Qwen3：智能搜索全栈解决方案新升级

AI 搜索开放平台与 Qwen3 模型的深度融合，为企业和开发者提供了从基础能力到复杂场景的全栈解决方案，让智能搜索的落地门槛更低、效率更高、体验更佳。

阿里云 AI 搜索开放平台新增：服务开发能力

AI 搜索开放平台内置实践打磨的多模态数据解析、文档切分、文本向量、查询分析、大模型文本生成、效果测评等丰富的组件化服务以及开发模版，同时，可选多种引擎能力，用户可灵活调用，实现智能搜索、检索增强生成（RAG）、多模态搜索等搜索相关场景的搭建。本次阿里云 AI 搜索开放平台服务开发能力的发布，旨在通过集成 DSW 能力并新增 Notebook 功能，进一步提升用户编排效率。

三、最佳实践

DistilQwen2.5-DS3-0324蒸馏小模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践

DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列，包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍 DistilQwen2.5-DS3-0324蒸馏小模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践。

云上玩转 Qwen3系列之二：PAI-LangStudio 搭建联网搜索和 RAG 增强问答应用

通过 PAI-LangStudio 和 Qwen3 构建基于 RAG 和联网搜索的 AI 智能问答应用。该应用通过将 RAG、web search 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中，为大模型提供了额外的联网搜索和特定领域知识库检索的能力，提升了智能回答的效果，减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发，以满足特定场景的需求。

云上玩转 Qwen3系列之三：PAI-LangStudio x Hologres 构建 ChatBI 数据分析 Agent 应用

PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用，通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中，为大模型提供了 MCP+OLAP 的智能数据分析能力，使用自然语言即可实现 OLAP 数据分析的查询效果，减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发，以满足特定场景的需求。

Cosmos on PAI 系列一：PAI-Model Gallery 云上一键部署 NVIDIA Cosmos Reason-1

NVIDIA Cosmos 是一个世界基础模型（WFMs, world foundation models）开发平台，用于推动物理 AI 的发展，包含先进的视觉标记器、护栏以及加速视频数据处理工具管线。它专为加速智能驾驶汽车和机器人领域的合成数据生成、AI 模型训练与评估而设计。阿里云人工智能平台 PAI 支持 Cosmos Reason-1进行快速部署使用。

构建 AI 时代的大数据基础设施- MaxCompute 多模态数据处理最佳实践

本方案通过 MaxCompute 提供面向多模态数据管理的表类型 Object Table，支持对 OSS 上的多模态图片数据进行元数据自动采集管理。同时，通过分布式 Python 计算框架 MaxFrame 完成对多模态数据处理开发，在 DataWorks 的 Notebook 中一站式完成多模态数据处理工作。

DataWorks x 婚礼纪：智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”

婚礼纪基于 DataWorks 构建的企业级大数据平台，通过湖仓一体架构与全链路数据治理体系，实现了多源异构数据的高效整合与价值挖掘，有效支撑了婚礼纪精准营销策略优化、智能广告投放、交易风控体系以及用户行为分析等核心业务场景。

开源大数据平台建设经典案例合集

EMR 作为云原生开源大数据平台，凭借其全栈技术生态、弹性资源和开箱即用的优势，已在多个行业头部企业中落地实践，覆盖云原生数据湖、实时湖仓分析、数据湖治理、机器学习等场景。本文精选多个标杆案例，解读 EMR 如何助力企业释放数据价值。

StarRocks+Paimon 落地阿里日志采集：万亿级实时数据秒级查询

A+流量分析平台是阿里集团统一的全域流量数据分析平台，当前，流量采集团队每天需要的日志数据达到万亿级，在写入和查询面临着巨大挑战。在引入 StarRocks+Paimon 后，实现万亿级实时日志数据的秒级查询。Paimon 负责高效存储实时日志数据，StarRocks 作为计算引擎提供高性能查询能力。通过分桶表设计、Data Cache 优化及文件大小控制，解决了高吞吐写入和高并发查询挑战，查询延迟稳定在秒级，大幅提升日志分析效率。

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

流利说基于阿里云 EMR Serverless Spark 构建高效数据平台，解决了原有半托管集群在弹性资源管理、成本、性能等方面的痛点。新架构采用 Serverless 模式实现按需计费，结合 Fusion 引擎使任务耗时减少40%，成本降低30%，失败率下降80%。平台整合 Airflow 调度、Hive 元数据管理和 OSS 存储，支持离线 ETL、数据集成和查询等场景，显著提升了任务执行效率与稳定性。

大数据& AI 产品月刊【2025年5月】

一、产品功能发布

二、产品快讯

三、最佳实践

大数据与机器学习

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

大数据& AI 产品月刊【2025年5月】

一、产品功能发布

二、产品快讯

三、最佳实践

大数据与机器学习

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景