大数据& AI 产品月刊【2025年3月】

简介: 大数据& AI 产品技术月刊【2025年3月】,涵盖3月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

一、产品功能发布


【人工智能平台 PAI】新地域/新可用区 - PAI 训练服务 美国(硅谷)正式开服

分布式训练服务 DLC、AI 资源配额(Quota)开通美国(硅谷)地域,可以支持客户使用资源配额(Quota)和 公共资源(按量付费)的提交训练任务。


【人工智能平台 PAI】功能优化 - 资源配额(Quota) 支持指定节点扩缩容

资源配额扩缩容支持节点维度的操作,使得 Quota 间算力管理、更配及转让的操作更加灵活。


【人工智能平台 PAI】功能优化 - DLC 提交 Ray 任务,支持自定义角色

DLC 提交 Ray 框架任务,支持用户自定义 worker 角色,实现异构资源混跑。


【人工智能平台 PAI】功能优化 - AI 算力节点状态升级

算力节点状态优化,禁止调度状态增加状态码,提升使用体验。


【人工智能平台 PAI】功能优化 - DLC 支持 ossfs 挂载 oss

DLC 支持 ossfs 方式挂载 oss, 为自动驾驶等的计算密集型任务,提供读写 oss 最优的性能。


【人工智能平台 PAI】新功能/规格 - LangStudio 1.0正式发布

帮助客户通过界面化、自动化的方式管理知识库、优化开发环境、支持效果评测,降低大模型应用的开发门槛。


【云原生大数据计算服务 MaxCompute】新功能/规格 -  聚簇优化推荐功能发布

MaxCompute 发布聚簇优化推荐功能,帮助用户进行表聚簇优化,提升查询性能与效率。


【云原生大数据计算服务 MaxCompute】新功能/规格 -  MaxCompute 已正式推出多 AZ 存储规格

MaxCompute 已正式推出多 AZ 存储规格,原默认的存储规格更名为单 AZ 存储。


【云原生大数据计算服务 MaxCompute】新功能/规格 - 分层存储配置优化支持自定义策略预估成本功能发布

支持根据除默认策略之外的自定义策略,对存储成本变化进行预估,以协助用户决策如何配置分层存储策略属性。


【大数据开发治理平台 DataWorks】新功能/规格 - 安全中心新增对 SelectDB/Doris 授权管理

管理 SelectDB/Doris 数据源的授权,允许用户在数据分析中使用已授权的数据源。


【大数据开发治理平台 DataWorks】新功能/规格 - 审批中心新增支持 Hologres 数据源自定义审批策略

用户可灵活设置审批环节和审批人员。


【大数据开发治理平台 DataWorks】新功能/规格 - Copilot 通过数据洞察任务优化数据质量规则生成建议

有效提升生成规则建议的准确性。


【开源大数据平台 E-MapReduce】新地域/新可用区 - StarRocks 在德国(法兰克福)正式开服

EMR Serverless StarRocks 新增开通德国(法兰克福)地域,客户可以在控制台上按需求开通集群。


【开源大数据平台 E-MapReduce】新功能/规格 - StarRocks 容灾能力 Beta 发布(白名单

在存算一体集群支持备份与恢复功能;在存算分离集群支持多 AZ 的容灾部署功能。


【智能开放搜索 OpenSearch】新功能/规格 - LLM 智能问答版支持全网搜索能力

OpenSearch LLM 智能问答版支持全网搜索能力,可设置基于全网搜索结果返回对话内容。


二、最新活动


Hologres Serverless Computing 降价46%

Hologres Serverless Computing 通过资源负载隔离和动态分配,提高查询速度并降低成本。北京、上海、杭州、深圳四地的 Hologres Serverless Computing 价格从0.66元/CUH 降至0.3542元/CUH。该技术在阿里集团内部每天使用超过2万 Core,综合内存水位下降50%,成本节约20%-30%。Serverless  Computing 提供灵活性、可扩展性、成本效益等优势,适用于大 SQL 作业频繁 OOM、流量高峰期资源紧张等场景,助力用户实现高效、稳定的计算资源管理。


三、产品快讯


人工智能平台 PAI 支持一键云上零门槛部署 DeepSeek-V3-0324、Qwen2.5-VL-32B

阿里云 PAI-Model Gallery 已同步接入 DeepSeek-V3-0324、Qwen2.5-VL-32B-Instruct 两大新模型,提供企业级部署方案。


DistilQwen2.5-R1发布:知识蒸馏助推小模型深度思考,人工智能平台 PAI 提供使用及下载教程

DistilQwen2.5-R1通过知识蒸馏技术,将大规模深度推理模型的知识迁移到小模型中,显著提升了小模型的推理能力。实验结果表明,DistilQwen2.5-R1在数学、代码和科学问题等多个基准测试中表现优异,尤其在7B参数量级上超越了其他开源蒸馏模型。本文将深入阐述 DistilQwen2.5-R1 的蒸馏算法、性能评估,并且提供在阿里云人工智能平台 PAI 上的使用指南及相关下载教程。


MaxCompute MaxFrame 推出 AI Function 功能,可一键调用大模型处理海量数据

AI Function 引入开箱即用的 Qwen 2.5 和 Deepseek-R1-Distill-Qwen 等系列大模型,用户不再需要去关心和解决复杂繁琐的模型部署问题,直接调用 AI Function 中提供的简单易用的编程接口,就可以对  MaxCompute 表中的海量数据使用大模型进行离线处理。


实时数仓 Hologres 成为 MCP 官方集成服务,轻松构建跨数据源、多步骤分解的数据分析 Agent

实时数仓 Hologres 已成为 MCP 官方集成服务,可通过 MCP+Hologres+LLM 搭建构建跨数据源、多步骤分解的数据分析 Agent。


阿里云 AI 搜索产品荣获 Elastic Innovation Award 2024

在新加坡 ElasticON 2025的 Elastic 合作伙伴峰会上阿里云 AI 搜索产品荣获 Elastic Innovation Award 2024,旨在表彰基于 Elastic 平台开发企业级生成式人工智能(GenAI)应用的顶尖合作伙伴。


阿里云携手 Elastic 正式启动先锋者招募!

阿里云 x Elastic 携手推出“Elastic Pioneer”先锋者计划,开发者们可以通过贡献内容获取积分,赢取月度和年度奖励,包括 ElasticON 新加坡站门票及与技术大咖交流机会。


阿里云Milvus 2.5:支持全文检索,1次查询实现文本+向量双精度匹配

阿里云向量检索服务 Milvus 版集成开源 Milvus2.5版本内核,在支持向量检索的基础上,新增支持原生全文检索、基于特定词汇的精准文本匹配等功能,在 RAG、多模态搜索等场景下搜索精度明显提升,使用体验大幅优化。


快速使用 Milvus MCP Server,0代码搭建智能搜索 Agent

开源 Milvus 已经对接了标准的 MCP 协议—Milvus MCP Server,Milvus 已成为 MCP 官方集成服务。 使用 Milvus MCP Server 即可实现快速高效搭建智能搜索 Agent,简化繁琐的开发流程,为搭建智能应用提效。


四、最佳实践


云上一键部署通义千问 QwQ-32B 模型

通义千问 QwQ-32B 模型在一系列权威基准测试中表现异常出色,几乎完全超越了 OpenAI-o1-mini,性能比肩 Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B 模型服务。


基于 Megatron 的多模态大模型训练加速技术解析

Pai-Megatron-Patch 是一款由阿里云人工智能平台 PAI 研发的围绕英伟达 Megatron 的大模型训练配套工具,旨在帮助开发者快速上手大模型,打通大模型相关的高效分布式训练、有监督指令微调、下游任务评估等大模型开发链路。本文以 Qwen2-VL 为例,从易用性和训练性能优化两个方面介绍基于 Megatron 构建的 Pai-Megatron-Patch 多模态大模型训练的关键技术。


DistilQwen2.5 蒸馏小模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践

DistilQwen2.5 是阿里云人工智能平台 PAI 推出的全新蒸馏大语言模型系列。通过黑盒化和白盒化蒸馏结合的自研蒸馏链路,DistilQwen2.5 各个尺寸的模型在多个基准测试数据集上比原始 Qwen2.5 模型有明显效果提升。PAI 对 DistilQwen2.5 模型系列提供了全面的技术支持,本文详细介绍在 PAI 平台使用 DistilQwen2.5 蒸馏小模型的全链路最佳实践。


如何用大模型评估大模型——PAI-Judge 裁判员大语言模型的实现简介

阿里云人工智能平台 PAI 推出 PAI-Judge 裁判员大模型,为用户构建符合应用场景的多维度、细粒度的评测体系,支持单模型评测和双模型竞技两种模式,允许用户自定义参数,实现准确、灵活、高效的模型自动化评测,为模型迭代优化提供数据支撑。相比通用大模型尤其在回答确定性/数学类问题、角色扮演、创意文体写作、翻译等场景下,PAI-Judge 系列模型表现优异,可以直接用于大模型的评估与质检。


PAI 一键云上零门槛部署 DeepSeek-V3-0324、Qwen2.5-VL-32B

阿里云 PAI-Model Gallery 已同步接入 DeepSeek-V3-0324、Qwen2.5-VL-32B-Instruct 两大新模型,提供企业级部署方案。


爱橙科技基于 MaxCompute 智能物化视图最佳实践

本实践从三个角度分享爱橙科技如何基于 MaxCompute 智能物化视图进行计算成本优化。首先是弹内 MaxCompute 物化视图实践;其次介绍物化视图帮助我们在数据模型层进行的优化;最后是物化视图如何与 Quick BI 等产品进行联动。


Hologres × PAI × DeepSeek 搭建 RAG 检索增强对话系统

本实践介绍使用 PAI-EAS 部署基于 DeepSeek 大模型的 RAG 服务,并关联 Hologres 引擎实例,以及对 RAG 对话系统的基础功能和 Hologres 高性能向量的功能进行说明。


Hologres 计算组实例&分时弹性入门实践

Hologres 计算组实例(Virtual Warehouse)是基于物理隔离的存算分离架构,只需保留一份存储,将多个业务需求拆分多个计算组实例,即可解决复负载隔离问题。搭配分时弹性能力,实现资源的规划与有效利用,帮助客户降低整体成本。


查询队列(Query Queue)快速入门

查询队列(Query Queue)是资源队列方案,针对突发的流量高峰及未知大任务影响 OLAP 系统稳定性问题,通过并发控制、排队能力、查询隔离和查询熔断四大功能,保证任务有序、按量使用资源,搭配 Serverless Computing 等相关能力,实现大任务的隔离与熔断,保证实例稳定性。


Flink CDC+Hologres 高性能数据同步优化实践

本文详细介绍了 Hologres 在与 Flink 结合时的高性能数据同步优化实践,涵盖写入和消费的多方面优化策略。通过这些优化,可以显著提高数据同步的速度和稳定性,确保数据在不同系统之间的高效流转。


Hologres 实时湖仓能力入门实践

Hologres 3.0版本作为一体化实时湖仓平台的升级特性。其核心能力包括湖仓存储一体、多模式计算一体、分析服务一体及 Data+AI 一体,极大提升数据开发效率。文章详细解析了两种湖仓架构:MaxCompute + Hologres 实现离线实时一体化,以及 Hologres + DLF + OSS 构建开放湖仓架构,并深入探讨元数据抽象、权限互通等重点功能。


Hologres 诊断与优化快速入门

本文基于 Hologres 利用诊断与调优工具提升 SQL 和数据库异常的全方位诊断能力,增强实例稳定性。涵盖五个部分:事前通过监控指标实时监控;事中通过活跃日志发现并处理问题;事后通过慢 Query 日志与 Query 洞察诊断性能瓶颈;成本治理借助表管理工具优化资源;以及利用诊断工具实现长期稳定性治理。


DataWorks :Data+AI 一体化开发实战图谱

阿里云 DataWorks 作为国内领先的一站式智能数据开发治理平台,内置阿里巴巴十余年大数据建设方法论,为数据仓库、数据湖、OpenLake 湖仓一体数据架构提供 Data+AI 数据架构开发、数据分析与主动式数据资产治理服务。DataWorks 数据开发现支持使用 GPU 资源,打破“大数据+AI”融合瓶颈。开发者可在同一平台完成从数据处理到模型推理的全流程,无需跨平台迁移数据。


在 EMR Serverless Spark 中实现 StarRocks 读写操作

EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理和模型训练的全流程。同时,它100%兼容开源 Spark 生态,能够无缝集成到客户现有的数据平台。使用 EMR Serverless Spark,企业可以更专注于数据处理分析和模型训练调优,提高工作效率。


在 EMR Serverless Spark 中实现 Doris 读写操作

结合 Apache Doris 与 EMR Serverless Spark,能够高效完成数据读取、写入与分析操作,实现端到端的数据处理流程。本文将介绍如何在 EMR Serverless Spark 中实现 Doris 的读写操作。


使用 DataWorks Notebook 实现智能图片标注,给你的图片加个“注释”

本文将基于视觉识别模型 RAM 和自然语言处理模型 BERT,介绍如何使用 DataWorks Notebook 实现多模态图片标注,为智能内容生成、多模态数据分析领域提供数据基础。


通过 Milvus 内置 Sparse-BM25算法进行全文检索并将混合检索应用于 RAG 系统

Milvus 最新版本 2.5 在全文检索、关键词匹配以及混合检索(Hybrid Search)方面实现了显著的增强,在多模态检索、RAG 等多场景中检索结果能够兼顾召回率与精确性。本文将详细介绍如何利用 Milvus 2.5 版本实现这些功能,并阐述其在 RAG 应用的 Retrieve 阶段的最佳实践。


阿里云向量检索服务 Milvus 版助力中免日上搭建在线推荐系统

阿里云向量检索服务 Milvus 版对比开源版本具有性能高、稳定性强、管控功能齐全等优势,为中免日上技术团队在电商领域搭建推荐系统提供了强有力的支持。阿里云 Milvus 不仅具备良好的可观测性,而且弹性扩缩能力能够适应日益增长的数据规模,同时版本平滑升级也能让技术专家更便捷、无痛地升级和体验新版本的产品能力。


高效向量检索实践:阿里云百炼生成+Milvus 存储技术方案解析

阿里云提出百炼+Milvus 从多模态数据向量化到高效检索的完整链路解决方案。该方案覆盖数据预处理、向量生成、分布式存储、混合检索等全流程,为 AI 场景提供开箱即用的向量数据管理能力,支撑推荐系统、内容相似性搜索等场景的快速落地。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
3月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
646 1
|
3月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
275 7
|
3月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
337 0
|
人工智能 大数据 安全
拔俗AI临床大数据科研分析平台:用智能技术加速医学研究新突破
AI临床大数据科研平台基于云原生架构,融合医疗NLP、联邦学习与智能分析技术,破解非结构化数据处理难、多源数据融合难、统计周期长等痛点,实现数据治理、智能分析与安全协作全链路升级,赋能医学科研高效、安全、智能化发展。
177 0
|
4月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
356 14
|
6月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
233 4
|
6月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
368 3
|
5月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
212 0
|
4月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
171 14