大数据& AI 产品月刊【2025年5月】

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
简介: 大数据& AI 产品技术月刊【2025年5月】,涵盖5月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

一、产品功能发布


【云原生大数据计算服务 MaxCompute】新功能/规格 - MaxCompute 数据传输服务观测能力升级

通过优化指标数据采集和加工处理链路,提升数据的准确性,新增支持以项目维度查看资源用量能力,新增更多使用方式选项,丰富数据传输服务的可观测性,实现对更多分析场景和需求的支持。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据资产治理新增数据质量治理计划

数据质量治理计划帮助用户快速发现数据质量问题并获取优化建议。


【大数据开发治理平台 DataWorks】新功能/规格 - 自定义镜像支持同步至 MaxCompute

支持在创建个人开发环境的自定义镜像时,同步生成 MaxCompute 的自定义镜像。


【大数据开发治理平台 DataWorks】功能优化 - 支持通过 RAM policy 实现对安全中心的访问

方便 RAM 用户/角色访问安全中心。


【大数据开发治理平台 DataWorks】功能优化 - 手动业务流程运维体验优化

支持运维大屏查看、新增筛选条件和排序方式,帮助用户提升运维效率。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据地图新增支持多个数据源租户级数据目录

新增 Data Lake Formation、Hologres 租户视角数据目录能力,帮助快速了解数据。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据集成新增火山引擎 TOS 数据源

可通过 DataWorks 获取火山引擎 TOS 中存储的文件,解析并离线同步至任意目标数据源。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据集成针对特定任务新增支持方式

PostgreSQL 至 Hologres 整库实时同步任务支持根据已有字段生成 Hologres 分区。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据质量智能规则生成支持波动类规则

帮助提升周期产出数据的完整性校验的配置效率。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据开发支持冒烟测试

方便用户能够在不影响线上数据的前提下,查看调度节点的任务执行情况。


【开源大数据平台 E-MapReduce】新功能/规格 - Serverless StarRocks 支持日志查询

StarRocks 支持日志查询功能,通过该功能可以查询详细实例日志进行任务的异常定位


【开源大数据平台 E-MapReduce】新地域/新可用区 - 全托管 StarRocks 在日本(东京)正式开服

Serverless StarRocks  新增开通日本(东京)地域,可以在控制台上按需求开通集群。


【向量检索服务 Milvus 版】新功能/规格 - 新增按量计费模式

用户购买标准版时可按需选择按量计费模式。


【向量检索服务 Milvus 版】功能优化 - 管控平台能力多项升级

通过集群维度监控看板、日志查询、集群标签与资源组管理、资源计算器升级等方式提高用户运维效率。



二、产品快讯

人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身

EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒、白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。基于 EasyDistill 框架,PAI 进一步开源了 DistilQwen 模型系列,并且提供了蒸馏技术的实际应用案例 EasyDistill-Recipes,其推理能力超越了其他开源蒸馏模型。


DistilQwen-ThoughtX:变长思维链推理模型,能力超越 DeepSeek 蒸馏模型

人工智能平台 PAI 团队开发的 OmniThought 数据集,其中包含200万思维链,并标注了推理冗余度(RV)和认知难度(CD)分数。基于此数据集推出了 DistilQwen-ThoughtX 系列模型,可以通过 RV 和 CD 分数对思维链进行筛选,训练得到的模型获得根据问题和本身的认知能力,生成变长思维链的能力。同时在 EasyDistill 框架中开源了 OmniThought 数据集和 DistilQwen-ThoughtX 模型的全部权重。这些模型在性能上超过了 DeepSeek-R1-Distill 系列。


DataWorks x Qwen3:数据开发与分析效率再升级

DataWorks 平台正式接入 Qwen3模型,支持最大235B 参数量。用户可通过 DataWorks Copilot 智能助手调用该模型,以自然语言交互实现代码生成、优化、解释及纠错等功能,大幅提升数据开发与分析效率。


火热邀测 | DataWorks 数据集成支持大模型 AI 处理

大数据开发治理平台 DataWorks 数据集成智能升级,以"AI 释放数据价值"为核心,推出数据集成支持大模型 AI 处理功能,支持在数据同步过程中对数据进行高级分析和处理,帮助用户利用 AI 技术提升数据质量、挖掘数据价值,让数据集成与大模型无缝协同,为多行业多场景赋能企业 AI 落地。


Hologres x 函数计算 x Qwen3,对接MCP构建企业级数据分析 Agent

Hologres 联合函数计算FC 推出「基于 Qwen3 的企业级数据分析 Agent」方案,解决企业级数据分析 Agent 性能、部署、弹性的挑战。


AI 搜索开放平台 x Qwen3:智能搜索全栈解决方案新升级

AI 搜索开放平台与 Qwen3 模型的深度融合,为企业和开发者提供了从基础能力到复杂场景的全栈解决方案,让智能搜索的落地门槛更低、效率更高、体验更佳。


阿里云 AI 搜索开放平台新增:服务开发能力

AI 搜索开放平台内置实践打磨的多模态数据解析、文档切分、文本向量、查询分析、大模型文本生成、效果测评等丰富的组件化服务以及开发模版,同时,可选多种引擎能力,用户可灵活调用,实现智能搜索、检索增强生成(RAG)、多模态搜索等搜索相关场景的搭建。本次阿里云 AI 搜索开放平台服务开发能力的发布,旨在通过集成 DSW 能力并新增 Notebook 功能,进一步提升用户编排效率。


三、最佳实践


DistilQwen2.5-DS3-0324蒸馏小模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践

DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍 DistilQwen2.5-DS3-0324蒸馏小模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践。


云上玩转 Qwen3系列之二:PAI-LangStudio 搭建联网搜索和 RAG 增强问答应用

通过 PAI-LangStudio 和 Qwen3 构建基于 RAG 和联网搜索 的 AI 智能问答应用。该应用通过将 RAG、web search 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了额外的联网搜索和特定领域知识库检索的能力,提升了智能回答的效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。


云上玩转 Qwen3系列之三:PAI-LangStudio x Hologres 构建 ChatBI 数据分析 Agent 应用

PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。


Cosmos on PAI 系列一:PAI-Model Gallery 云上一键部署 NVIDIA Cosmos Reason-1

NVIDIA Cosmos 是一个世界基础模型(WFMs, world foundation models)开发平台,用于推动物理 AI 的发展,包含先进的视觉标记器、护栏以及加速视频数据处理工具管线。它专为加速智能驾驶汽车和机器人领域的合成数据生成、AI 模型训练与评估而设计。  阿里云人工智能平台 PAI 支持 Cosmos Reason-1进行快速部署使用。


构建 AI 时代的大数据基础设施- MaxCompute 多模态数据处理最佳实践

本方案通过 MaxCompute 提供面向多模态数据管理的表类型 Object Table,支持对 OSS 上的多模态图片数据进行元数据自动采集管理。同时,通过分布式 Python 计算框架 MaxFrame 完成对多模态数据处理开发,在 DataWorks 的 Notebook 中一站式完成多模态数据处理工作。


DataWorks x 婚礼纪:智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”

婚礼纪基于 DataWorks 构建的企业级大数据平台,通过湖仓一体架构与全链路数据治理体系,实现了多源异构数据的高效整合与价值挖掘,有效支撑了婚礼纪精准营销策略优化、智能广告投放、交易风控体系以及用户行为分析等核心业务场景。


开源大数据平台建设经典案例合集

EMR 作为云原生开源大数据平台,凭借其全栈技术生态、弹性资源和开箱即用的优势,已在多个行业头部企业中落地实践,覆盖云原生数据湖、实时湖仓分析、数据湖治理、机器学习等场景。本文精选多个标杆案例,解读 EMR 如何助力企业释放数据价值。


StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询

A+流量分析平台是阿里集团统一的全域流量数据分析平台,当前,流量采集团队每天需要的日志数据达到万亿级,在写入和查询面临着巨大挑战。在引入 StarRocks+Paimon 后,实现万亿级实时日志数据的秒级查询。Paimon 负责高效存储实时日志数据,StarRocks 作为计算引擎提供高性能查询能力。通过分桶表设计、Data Cache 优化及文件大小控制,解决了高吞吐写入和高并发查询挑战,查询延迟稳定在秒级,大幅提升日志分析效率。


Fusion 引擎赋能:流利说如何用阿里云 Serverless Spark 实现数仓计算加速

流利说基于阿里云 EMR Serverless Spark 构建高效数据平台,解决了原有半托管集群在弹性资源管理、成本、性能等方面的痛点。新架构采用 Serverless 模式实现按需计费,结合 Fusion 引擎使任务耗时减少40%,成本降低30%,失败率下降80%。平台整合 Airflow 调度、Hive 元数据管理和 OSS 存储,支持离线 ETL、数据集成和查询等场景,显著提升了任务执行效率与稳定性。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
人工智能 分布式计算 大数据
大数据& AI 产品月刊【2025年4月】
大数据& AI 产品技术月刊【2025年4月】,涵盖4月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
2月前
|
SQL DataWorks 大数据
DataWorks x 婚礼纪:智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”
婚礼纪是杭州火烧云科技推出的结婚服务平台,覆盖婚宴酒店、婚纱摄影等全产业链,年服务超2000万对新人。为应对海量数据处理挑战,婚礼纪选择阿里云DataWorks作为一站式大数据开发治理平台,解决数据血缘不清、指标口径混乱等问题。通过湖仓一体架构与全链路数据治理,实现多源异构数据高效整合,支撑精准营销、交易风控等核心场景。DataWorks新版数据开发Data Studio大幅提升开发效率,Copilot智能助手优化SQL代码生成与测试,助力婚礼纪构建数据驱动的结婚产业服务中枢。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
1月前
|
人工智能 监控 数据挖掘
6/14 上海,Apache Doris x 阿里云 SelectDB AI 主题线下 Meetup 正式开启报名!
6 月 14 日,由 Apache Doris 社区、飞轮科技、阿里云联合发起的湖仓数智融合、AI 洞见未来:Apache Doris x 阿里云 SelectDB 联合 Meetup 将在上海·汇付天下总部大楼正式开启,邀您一同探索 AI 与数据分析的融合实践!
254 76
|
3月前
|
人工智能 分布式计算 大数据
大数据& AI 产品月刊【2025年3月】
大数据& AI 产品技术月刊【2025年3月】,涵盖3月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
2月前
|
机器学习/深度学习 人工智能 安全
基于YOLOv8的路面缺陷(路面裂缝、井盖、坑洼路面)识别项目【完整源码数据集+PyQt5界面+完整训练流程+开箱即用!】
本项目基于YOLOv8与PyQt5,打造路面缺陷检测系统,支持裂缝、井盖、坑洼识别,涵盖图片、视频、摄像头等多种输入方式。提供完整训练数据、预训练模型及图形化界面,开箱即用,本地运行,方便二次开发。适用于智慧城市建设与道路安全巡检,推动AI检测技术实际应用。项目包含源码、数据集、训练代码,支持科研学习与工程实战。
215 15
基于YOLOv8的路面缺陷(路面裂缝、井盖、坑洼路面)识别项目【完整源码数据集+PyQt5界面+完整训练流程+开箱即用!】
|
1月前
|
自然语言处理 API 开发工具
端午出游高定:通义灵码+高德 MCP 10 分钟定制出游攻略
本文介绍了如何使用通义灵码编程智能体与高德 MCP 2.0 制作北京端午3天旅行攻略页面。首先需下载通义灵码 AI IDE 并获取高德申请的 key,接着通过添加 MCP 服务生成 travel_tips.html 文件,最终在手机端查看已发布上线的攻略。此外还详细说明了利用通义灵码打造专属 MCP 服务的过程,包括开发计划、代码编写、部署及连接服务等步骤,并提供了自由探索的方向及相关资料链接。
500 98
|
2月前
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
3月前
|
自然语言处理 安全 数据挖掘
Hologres+函数计算+Qwen3,对接MCP构建企业级数据分析 Agent
本文介绍了通过阿里云Hologres、函数计算FC和通义千问Qwen3构建企业级数据分析Agent的解决方案。大模型在数据分析中潜力巨大,但面临实时数据接入与跨系统整合等挑战。MCP(模型上下文协议)提供标准化接口,实现AI模型与外部资源解耦。方案利用SSE模式连接,具备高实时性、良好解耦性和轻量级特性。Hologres作为高性能实时数仓,支持多源数据毫秒级接入与分析;函数计算FC以Serverless模式部署,弹性扩缩降低成本;Qwen3则具备强大的推理与多语言能力。用户可通过ModelScope的MCP Playground快速体验,结合TPC-H样例数据完成复杂查询任务。

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute