大数据& AI 产品月刊【2025年5月】

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 大数据& AI 产品技术月刊【2025年5月】,涵盖5月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

一、产品功能发布


【云原生大数据计算服务 MaxCompute】新功能/规格 - MaxCompute 数据传输服务观测能力升级

通过优化指标数据采集和加工处理链路,提升数据的准确性,新增支持以项目维度查看资源用量能力,新增更多使用方式选项,丰富数据传输服务的可观测性,实现对更多分析场景和需求的支持。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据资产治理新增数据质量治理计划

数据质量治理计划帮助用户快速发现数据质量问题并获取优化建议。


【大数据开发治理平台 DataWorks】新功能/规格 - 自定义镜像支持同步至 MaxCompute

支持在创建个人开发环境的自定义镜像时,同步生成 MaxCompute 的自定义镜像。


【大数据开发治理平台 DataWorks】功能优化 - 支持通过 RAM policy 实现对安全中心的访问

方便 RAM 用户/角色访问安全中心。


【大数据开发治理平台 DataWorks】功能优化 - 手动业务流程运维体验优化

支持运维大屏查看、新增筛选条件和排序方式,帮助用户提升运维效率。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据地图新增支持多个数据源租户级数据目录

新增 Data Lake Formation、Hologres 租户视角数据目录能力,帮助快速了解数据。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据集成新增火山引擎 TOS 数据源

可通过 DataWorks 获取火山引擎 TOS 中存储的文件,解析并离线同步至任意目标数据源。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据集成针对特定任务新增支持方式

PostgreSQL 至 Hologres 整库实时同步任务支持根据已有字段生成 Hologres 分区。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据质量智能规则生成支持波动类规则

帮助提升周期产出数据的完整性校验的配置效率。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据开发支持冒烟测试

方便用户能够在不影响线上数据的前提下,查看调度节点的任务执行情况。


【开源大数据平台 E-MapReduce】新功能/规格 - Serverless StarRocks 支持日志查询

StarRocks 支持日志查询功能,通过该功能可以查询详细实例日志进行任务的异常定位


【开源大数据平台 E-MapReduce】新地域/新可用区 - 全托管 StarRocks 在日本(东京)正式开服

Serverless StarRocks  新增开通日本(东京)地域,可以在控制台上按需求开通集群。


【向量检索服务 Milvus 版】新功能/规格 - 新增按量计费模式

用户购买标准版时可按需选择按量计费模式。


【向量检索服务 Milvus 版】功能优化 - 管控平台能力多项升级

通过集群维度监控看板、日志查询、集群标签与资源组管理、资源计算器升级等方式提高用户运维效率。



二、产品快讯

人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身

EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒、白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。基于 EasyDistill 框架,PAI 进一步开源了 DistilQwen 模型系列,并且提供了蒸馏技术的实际应用案例 EasyDistill-Recipes,其推理能力超越了其他开源蒸馏模型。


DistilQwen-ThoughtX:变长思维链推理模型,能力超越 DeepSeek 蒸馏模型

人工智能平台 PAI 团队开发的 OmniThought 数据集,其中包含200万思维链,并标注了推理冗余度(RV)和认知难度(CD)分数。基于此数据集推出了 DistilQwen-ThoughtX 系列模型,可以通过 RV 和 CD 分数对思维链进行筛选,训练得到的模型获得根据问题和本身的认知能力,生成变长思维链的能力。同时在 EasyDistill 框架中开源了 OmniThought 数据集和 DistilQwen-ThoughtX 模型的全部权重。这些模型在性能上超过了 DeepSeek-R1-Distill 系列。


DataWorks x Qwen3:数据开发与分析效率再升级

DataWorks 平台正式接入 Qwen3模型,支持最大235B 参数量。用户可通过 DataWorks Copilot 智能助手调用该模型,以自然语言交互实现代码生成、优化、解释及纠错等功能,大幅提升数据开发与分析效率。


火热邀测 | DataWorks 数据集成支持大模型 AI 处理

大数据开发治理平台 DataWorks 数据集成智能升级,以"AI 释放数据价值"为核心,推出数据集成支持大模型 AI 处理功能,支持在数据同步过程中对数据进行高级分析和处理,帮助用户利用 AI 技术提升数据质量、挖掘数据价值,让数据集成与大模型无缝协同,为多行业多场景赋能企业 AI 落地。


Hologres x 函数计算 x Qwen3,对接MCP构建企业级数据分析 Agent

Hologres 联合函数计算FC 推出「基于 Qwen3 的企业级数据分析 Agent」方案,解决企业级数据分析 Agent 性能、部署、弹性的挑战。


AI 搜索开放平台 x Qwen3:智能搜索全栈解决方案新升级

AI 搜索开放平台与 Qwen3 模型的深度融合,为企业和开发者提供了从基础能力到复杂场景的全栈解决方案,让智能搜索的落地门槛更低、效率更高、体验更佳。


阿里云 AI 搜索开放平台新增:服务开发能力

AI 搜索开放平台内置实践打磨的多模态数据解析、文档切分、文本向量、查询分析、大模型文本生成、效果测评等丰富的组件化服务以及开发模版,同时,可选多种引擎能力,用户可灵活调用,实现智能搜索、检索增强生成(RAG)、多模态搜索等搜索相关场景的搭建。本次阿里云 AI 搜索开放平台服务开发能力的发布,旨在通过集成 DSW 能力并新增 Notebook 功能,进一步提升用户编排效率。


三、最佳实践


DistilQwen2.5-DS3-0324蒸馏小模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践

DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍 DistilQwen2.5-DS3-0324蒸馏小模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践。


云上玩转 Qwen3系列之二:PAI-LangStudio 搭建联网搜索和 RAG 增强问答应用

通过 PAI-LangStudio 和 Qwen3 构建基于 RAG 和联网搜索 的 AI 智能问答应用。该应用通过将 RAG、web search 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了额外的联网搜索和特定领域知识库检索的能力,提升了智能回答的效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。


云上玩转 Qwen3系列之三:PAI-LangStudio x Hologres 构建 ChatBI 数据分析 Agent 应用

PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。


Cosmos on PAI 系列一:PAI-Model Gallery 云上一键部署 NVIDIA Cosmos Reason-1

NVIDIA Cosmos 是一个世界基础模型(WFMs, world foundation models)开发平台,用于推动物理 AI 的发展,包含先进的视觉标记器、护栏以及加速视频数据处理工具管线。它专为加速智能驾驶汽车和机器人领域的合成数据生成、AI 模型训练与评估而设计。  阿里云人工智能平台 PAI 支持 Cosmos Reason-1进行快速部署使用。


构建 AI 时代的大数据基础设施- MaxCompute 多模态数据处理最佳实践

本方案通过 MaxCompute 提供面向多模态数据管理的表类型 Object Table,支持对 OSS 上的多模态图片数据进行元数据自动采集管理。同时,通过分布式 Python 计算框架 MaxFrame 完成对多模态数据处理开发,在 DataWorks 的 Notebook 中一站式完成多模态数据处理工作。


DataWorks x 婚礼纪:智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”

婚礼纪基于 DataWorks 构建的企业级大数据平台,通过湖仓一体架构与全链路数据治理体系,实现了多源异构数据的高效整合与价值挖掘,有效支撑了婚礼纪精准营销策略优化、智能广告投放、交易风控体系以及用户行为分析等核心业务场景。


开源大数据平台建设经典案例合集

EMR 作为云原生开源大数据平台,凭借其全栈技术生态、弹性资源和开箱即用的优势,已在多个行业头部企业中落地实践,覆盖云原生数据湖、实时湖仓分析、数据湖治理、机器学习等场景。本文精选多个标杆案例,解读 EMR 如何助力企业释放数据价值。


StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询

A+流量分析平台是阿里集团统一的全域流量数据分析平台,当前,流量采集团队每天需要的日志数据达到万亿级,在写入和查询面临着巨大挑战。在引入 StarRocks+Paimon 后,实现万亿级实时日志数据的秒级查询。Paimon 负责高效存储实时日志数据,StarRocks 作为计算引擎提供高性能查询能力。通过分桶表设计、Data Cache 优化及文件大小控制,解决了高吞吐写入和高并发查询挑战,查询延迟稳定在秒级,大幅提升日志分析效率。


Fusion 引擎赋能:流利说如何用阿里云 Serverless Spark 实现数仓计算加速

流利说基于阿里云 EMR Serverless Spark 构建高效数据平台,解决了原有半托管集群在弹性资源管理、成本、性能等方面的痛点。新架构采用 Serverless 模式实现按需计费,结合 Fusion 引擎使任务耗时减少40%,成本降低30%,失败率下降80%。平台整合 Airflow 调度、Hive 元数据管理和 OSS 存储,支持离线 ETL、数据集成和查询等场景,显著提升了任务执行效率与稳定性。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
59
59
0
3627
分享
相关文章
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
大模型+安全,阿里云发布AI云盾系列产品!
阿里云正式发布AI云盾(Cloud Shield for AI)系列安全产品,包括AI安全护栏、升级云安全中心、WAAP和云防火墙。该系列提供模型输入输出安全、AI-BOM、AI-SPM等能力,构建三层模型安全防御体系,涵盖AI基础设施、大模型及应用安全。其中,AI安全护栏保障生成式AI合规性,实时检测威胁并维护模型健康,支持多模态内容交叉检测的All In One API调用模式。此外,AI-BOM与AI-SPM助力客户持续监控AI资产及安全状态。
294 3
大模型+安全,阿里云发布AI云盾系列产品!
别再只看病了,来看看“大数据+AI”是怎么救命的!
别再只看病了,来看看“大数据+AI”是怎么救命的!
81 1
大数据& AI 产品月刊【2025年4月】
大数据& AI 产品技术月刊【2025年4月】,涵盖4月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
三步法打造企业级AI产品,背后藏着怎样的落地方法论?
三桥君分享打造金融级AI产品的三步法:业务梳理找切入点、模型验证技术可行性、大规模验证落地效果。助力AI产品经理掌握核心能力,推动AI在信贷审批、投资管理等场景真正落地。
56 11
无需编程,我用 AI 模型结合 RPA 自动化,用 2 天时间手搓小红书营销产品
这是一篇关于如何用ai 和无代码方式,为运营提供一套“小红书爆款生产流水线”的工具,系统可自动采集对标博主笔记、分析热点数据并生成选题草稿,用户仅需补充细节即可完成高质量内容创作。流程涵盖关键词采集、对标博主监控、高价值笔记筛选、AI文案与图片创作及多账号矩阵发布。相比传统方式,该方法大幅提升效率,1小时可完成10篇内容创作,助力创作者在竞争中脱颖而出。文中还详细解析了关键词采集、对标博主分析、自动化排版等关键步骤,适合希望提升内容生产效率的运营者参考。
AI和大数据:是工具,还是操控人心的“隐形之手”?
AI和大数据:是工具,还是操控人心的“隐形之手”?
91 1
通义灵码入选 “2025 年值得关注的 AIGC 产品”,是唯一入选的 AI 编程产品
阿里云的通义灵码是一款基于通义大模型的AI编程助手,能够智能生成代码、优化结构、排查错误并自动生成测试用例,支持多种主流编程语言。在2025年入选《值得关注的AIGC产品》榜单,凭借卓越技术与广泛应用场景成为国内开发者首选。通义灵码已在国内多个行业落地,大幅提升开发效率与代码质量,同时针对中文编程场景优化,支持企业内网部署保障数据安全,推动AI编程技术在教育与科研领域的创新应用。
星云智控科技-优雅草星云物联网AI智控系统软件产品技术栈一览表-优雅草卓伊凡
星云智控科技-优雅草星云物联网AI智控系统软件产品技术栈一览表-优雅草卓伊凡
103 7
星云智控科技-优雅草星云物联网AI智控系统软件产品技术栈一览表-优雅草卓伊凡

相关产品

  • 云原生大数据计算服务 MaxCompute
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等