大数据& AI 产品月刊【2025年4月】

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
Elasticsearch Serverless检索通用型,资源抵扣包 100CU*H
简介: 大数据& AI 产品技术月刊【2025年4月】,涵盖4月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

一、产品功能发布


【人工智能平台 PAI】新地域/新可用区 - DSW 在美国(弗吉尼亚)、美国(硅谷)正式开服

DSW 新增美国(弗吉尼亚)、美国(硅谷)地域,用户可以在控制台上按需使用。


【云原生大数据计算服务 MaxCompute】新功能/规格 - MaxFrame AI Function 功能发布

MaxCompute 推出 AI Function 功能,支持调用大模型进行海量数据离线处理。


【大数据开发治理平台 DataWorks】新功能/规格 - 运维中心智能诊断的错误诊断功能对接大模型

可通过大模型对错误日志进行分析,显著提升智能运维效率。


【大数据开发治理平台 DataWorks】新功能/规格 - 运维中心基线配置新增支持开启标签功能

用户可基于基线的系统标签过滤任务,方便查找。


【大数据开发治理平台 DataWorks】新功能/规格 - 支持 Lindorm 计算资源

可通过 Lindorm 进行任务开发,并通过数据地图管理和维护数据血缘关系。


【大数据开发治理平台 DataWorks】新功能/规格 - 支持数据集成单表离线写入 Milvus 数据源

新增支持向量数据的写入通道。


【大数据开发治理平台 DataWorks】新功能/规格 - 新增对 MongoDB 数据源的版本和读取方式支持

提升了 MongoDB 数据源的兼容性。


【大数据开发治理平台 DataWorks】新功能/规格 - 新增 MySQL 实时同步写入到 Kafka 的写入格式

数据集成 MySQL 实时同步写入到 Kafka 支持按标准的 canal json 格式写入。


【大数据开发治理平台 DataWorks】新功能/规格 - 发布 MCP Server 并正式推出 Agent 功能

支持用户通过自然语言实现数据开发治理等工作。


【大数据开发治理平台 DataWorks】新功能/规格 - 运维中心支持租户管理员自定义电话告警免打扰间隔

提升了告警通知设置的灵活度。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据集成整库实时任务可实现分阶段资源组 CU 数独立设置

分阶段资源使用可有效降低成本。


【实时数仓 Hologres】功能优化 - 新加坡 Region 支持3AZ 同城容灾部署

新加坡 Region 容灾能力增量,产品从单 AZ 部署模式升级为3AZ 同城容灾部署,提升存储和计算的同城容灾能力。


【实时计算 Flink 版】新功能/规格 - 用户自持的 OSS Bucket 迁移至全托管存储

用户可将原工作空间绑定的 OSS 存储更换为全托管存储,从而提升 Flink 作业的稳定性和效率。


【实时计算 Flink 版】功能优化- 支持修改物化表 Query

业务逻辑发生变化时,用户可修改已有物化表的 Query 信息,修改后可基于修改逻辑获取最新的数据。


【实时计算 Flink 版】新功能/规格 - 支持将现有的 CDXS 作业迁移为 YAML 作业

通过 Flink CDC 3.0 的社区兼容,进行商业化转化。


【实时计算 Flink 版】新功能/规格 - SQL 作业支持 Hive Kerberos

用户可以使用 SQL 作业读写支持 Kerberos 的 Hive 集群。


【开源大数据平台 E-MapReduce】新地域/新可用区 - Serverless Spark 在日本(东京)正式开服

EMR Serverless Spark 新增开通日本(东京)地域,客户可以在控制台上按需求开通服务。


【开源大数据平台 E-MapReduce】新功能/规格 - EMR on ECS 集群支持多可用区部署

EMR on ECS 集群新增 Task 跨可用区节点组。


【开源大数据平台 E-MapReduce】新功能/规格 - Spark 对接外部 Ranger、Kerberos 服务

Serverless Spark 支持对接外部 Ranger 服务和 Kerberos 服务。


【开源大数据平台 E-MapReduce】新功能/规格 - EMR on ECS 集群 Task 节点全面支持补偿能力

EMR on ECS 集群 Task 节点全面支持补偿能力。


【开源大数据平台 E-MapReduce】新功能/规格 - 全托管 Spark 支持 Kyuubi Gateway

Serverless Spark 正式支持 Kyuubi Gateway。


【开源大数据平台 E-MapReduce】新功能/规格 - EMR on ECS 优化查看健康检查项历史功能

EMR on ECS 优化查看健康检查项历史功能。


【开源大数据平台 E-MapReduce】新功能/规格 - EMR on ECS 优化执行脚本体验

EMR on ECS 可以通过手动执行脚本功能批量选择节点来运行指定脚本,以实现个性化需求。


【开源大数据平台 E-MapReduce】新功能/规格 - EMR on ECS 优化管理安全组

EMR on ECS 创建集群后,支持对节点组的安全组信息进行修改。


【开源大数据平台 E-MapReduce】新功能/规格 - Serverless Spark 支持变量管理

Serverless Spark SQL 开发和批任务支持自定义变量管理,可简化代码的维护和调整。


【开源大数据平台 E-MapReduce】新功能/规格 - Serverless Spark 支持工作流补数

Serverless Spark 支持补数功能。工作流以及工作流节点使用的时间变量会根据补数选择的业务时间自动替换为对应的值。


【开源大数据平台 E-MapReduce】新功能/规格 - 全托管 Spark 支持挂载 OSS Bucket

全托管 Spark 支持将 OSS Bucket 作为文件系统,以目录方式挂载到 Notebook 会话资源。


【检索分析服务 Elasticsearch 版】新功能/规格 - ES Serverless 检索增强型8.17版开放公测

ES Serverless 结合 ES 8.17版本,全面开放向量检索功能,提升语义理解与检索效果。


【智能开放搜索 OpenSearch】新功能/规格 - 向量检索版与召回引擎版支持高可用方案

支持新购实例选择高可用规格,或存量实例升级为双可用区部署,从底层架构提升客户服务稳定性。


二、最新活动


阿里云 Elasticsearch Serverless 检索增强型8.17版免费邀测!

在数字化转型的背景下,企业对高效、低成本的检索系统需求激增。阿里云 Elasticsearch Serverless 检索增强型8.17版现已开放邀测!通过向量搜索性能突破、弹性资源调度优化及成本控制增强,在语义和多模态等更多的场景,效果提升显著。


三、产品快讯


Qwen3 全尺寸模型支持通过阿里云 PAI-Model Gallery 一键部署

Qwen3 是 Qwen 系列最新一代的大语言模型,提供了一系列密集(Dense)和混合专家(MOE)模型。目前,PAI 已经支持 Qwen3 全系列模型一键部署,用户可以通过 PAI-Model Gallery 快速开箱。


DistilQwen2.5-DS3-0324发布:知识蒸馏+快思考=更高效解决推理难题

DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。DistilQwen2.5-DS3-0324 系列模型是基于 DeepSeek-V3-0324 通过知识蒸馏技术并引入快思考策略构建,显著提升推理速度,使得在资源受限的设备和边缘计算场景中,模型能够高效执行复杂任务。实验显示,DistilQwen2.5-DS3-0324 系列中的模型在多个基准测试中表现突出,其32B模型效果接近参数量接近其10倍的闭源大模型。


中小企业基于 Data+AI,如何快速构建 AI 应用

AI 时代飞速发展,大模型和 AI 的应用创新不断涌现,面对百花齐放的 AI 模型,阿里云计算平台大数据 AI 解决方案总监魏博文分享如何通过阿里云提供的大数据 AI 一体化平台,解决企业开发难、部署繁、成本高等一系列问题,让中小企业快速搭建 AI 应用。


先锋集结 | Elastic Pioneer 先锋者计划启动,快来加入!

搜索技术江湖的隐藏“扫地僧”,是时候出山了!Elasticsearch 为开发者们搭建了Elastic Pioneer 先锋者计划舞台,在全球开源社区上传你的 Elasticsearch 相关操作,包括演讲 | 文章 | 代码 | 解决方案等贡献,月度榜单可赢取礼品卡+云资源代金券,年度 Top3可直通新加坡 ElasticON 大会,官方打造个人技术 IP,与 AI 搜索一起碰撞更多可能!


2025 AI 势能大会,阿里云大数据 AI 产品升级发布!

2025 AI 势能大会上,阿里云大数据 AI 平台持续创新,贴合 MoE 架构、Reasoning Model 、 Agentic RAG、MCP 等新趋势,带来计算范式变革。多款大数据及 AI 产品重磅升级,助力企业客户高效地构建 AI 模型并落地 AI 应用。


阿里云 AI 搜索开放平台增加 QwQ 模型,为企业和开发者带来更强大的搜索解决方案

阿里云 AI 搜索开放平台的 QwQ 模型功能的加入,将为企业和开发者提供了更强大、更智能的搜索解决方案。通过深度结合大语言模型和联网搜索技术,为用户提供更优质的技术支持和服务,助力您的业务迈向新的高度。


阿里云 AI 搜索开放平台新功能发布:大模型联网能力上线

阿里云 AI 搜索开放平台新增大模型联网能力,通过集成大语言模型(LLM)和联网搜索技术,为用户提供更智能、更全面的搜索体验。提供联网搜索 API,支持 Normal(向量化过滤)、Fast(极速无过滤)、Full(大模型评判过滤)三种策略。


阿里云 AI 搜索开放平台新功能发布:新增 GTE 自部署模型

阿里云 AI 搜索开放平台正式推出 GTE 多语言通用文本向量模型(iic/gte_sentence-embedding_multilingual-base),旨在满足企业全球化业务中的多语言数据处理需求。该模型来源于 ModelScope 模型库,并开放自部署能力,助力企业构建更高并发、更低延迟的多语言搜索与分析系统。


四、最佳实践


云上玩转 DeepSeek 系列之六:阿里云 PAI 上线优化版 DeepSeek,再创模型性能新高

作为国内首个千亿级开源 MoE 模型,DeepSeek-R1 凭借其卓越的代码生成与复杂推理能力,已成为开发者构建智能应用的首选。然而,原始模型在产业落地中面临严峻挑战,部署 671B 满血版模型不仅硬件门槛要求很高,同时吞吐效率和响应延迟也受到了制约。PAI 正式推出了优化版 DeepSeek-R1 模型 DeepSeek-R1-PAI-optimized,将大模型推理效率推向了 Next Level。通过 PAI Model Gallery 可以实现一键部署 DeepSeek-R1-PAI-optimized 模型。


DistilQwen2.5-R1 蒸馏小模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践

DistilQwen 2.5 是人工智能平台 PAI 推出的全新蒸馏大语言模型系列。通过黑盒化和白盒化蒸馏结合的自研蒸馏链路,DistilQwen 2.5各个尺寸的模型在多个基准测试数据集上比原始 Qwen2.5 模型有明显效果提升。这一系列模型在移动设备、边缘计算等资源受限的环境中具有更高的性能,在较小参数规模下,显著降低了所需的计算资源和推理时长。阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对 DistilQwen2.5 模型系列提供了全面的技术支持。


PAI-Model Gallery 云上一键部署阶跃星辰新模型 Step1X-Edit

Step1X-Edit模型实现 MLLM 与 DiT 的深度融合,在编辑精度与图像保真度上实现大幅提升,在最新发布的图像编辑基准 GEdit-Bench 中,Step1X-Edit 在语义一致性、图像质量与综合得分三项指标上全面领先现有开源模型,比肩 GPT-4o 与 Gemin。PAI-ModelGallery 支持 Step1X-Edit一键部署方案。


用友畅捷通基于阿里云 MaxCompute 搭建智能数仓的落地实践

畅捷通基于阿里云 MaxCompute 构建智能数仓,解决数据孤岛、大规模复杂数据处理及云原生需求等痛点。通过离线链路实现数据整合与加工,支持指标计算和数据分析场景,构建灵活、高效且可扩展的数据存储与计算体系。


DataWorks 数据集成同步至 Hologres 能力介绍

DataWorks 数据集成是一个稳定高效、弹性伸缩的数据同步平台,致力于提供在复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力,提供低成本、高效率、全场景覆盖的数据同步方案。当我们面向数据库级别,向 Hologres 进行同步时,能够实现简单且快速的同步设置。目前仅需配置一个任务,就能迅速地将一个数据库实例内的所有库表一并传输到 Hologres 中。


DataWorks x Qwen3:数据开发与分析效率再升级!

阿里云一站式智能大数据开发治理平台 DataWorks 正式接入 Qwen3 模型,可支持235B 最大尺寸。用户通过 DataWorks Copilot 智能助手即可调用该模型,通过自然语言交互完成多种代码操作,实现数据开发、数据分析的快速实现。


Hologres x Qwen3 x 函数计算:对接 MCP 构建企业级数据分析 Agent

阿里云实时数仓 Hologres,联合函数计算FC 推出「Hologres + 函数计算 FunctionAI + Qwen3 构建企业级数据分析 Agent」方案,帮助用户快速对接 MCP,高效跨越企业级数据分析 Agent 构建困境。


百观科技基于阿里云 EMR 的数据湖实践分享

百观科技为应对海量复杂数据处理的算力与成本挑战,基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度,实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度(资源利用率提升至70%)及倚天 ARM 机型搭配 EMR Trino 方案,兼顾性能与成本,支撑数据分析需求,降低算力成本。


EMR Serverless Spark 在《明日方舟》游戏业务的应用

鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。EMR Serverless Spark 是一款兼容开源 Spark 的高性能 Lakehouse 产品,提供丰富的功能支持、优秀的引擎性能以及完善的服务保障,完美匹配鹰角网络大数据架构选型需求。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强 SLA 保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。


碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践

碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构,解决了海量数据处理中的资源利用率低、并发能力不足等问题,显著降低了硬件和运维成本。实时查询性能提升8倍,查询出错率减少30倍,集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验,还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。


基于 AI 搜索开放平台用大模型+RAG 给宠物做一个 AI 健康助手

AI 搜索开放平台基于 LLM+RAG 的系统框架,构建“宠物医院 AI 助手”的实践。方案具备多模态 AI 技术,可以实现精准搜索与推荐;PB 级数据实时处理,弹性资源灵活扩展;内置开箱即用模板,支持多行业定制化方案等能力。


大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索

RAG 技术是大模型落地成败的关键:它通过实时检索外部知识,有效解决“幻觉”和知识陈旧问题。阿里云AI搜索开放平台将 RAG 全链路拆解为“即插即用”的组件。开发者无需懂算法就可以像拼乐高一样调用文档解析、多模态理解、QwQ 模型等服务来快速构建专业的基于 RAG 的 AI 系统。从技术探索到价值创造,阿里云正重新定义企业拥抱 AI 的“最优路径”。


AI 搜索开放平台 x Qwen3:智能搜索全栈解决方案新升级

阿里云 AI 搜索开放平台与 Qwen3 模型的深度融合,为企业和开发者提供了从基础能力到复杂场景的全栈解决方案,让智能搜索的落地门槛更低、效率更高、体验更佳。


立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务

蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus,解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%,Milvus 向量检索成本降低75%,支持更大规模数据处理,查询响应提速。


通过阿里云 Milvus 与通义千问 VL 大模型,快速实现多模态搜索

阿里云向量检索服务 Milvus 版是一款云原生、全托管的向量检索引擎,确保与开源 Milvus 的完全兼容,支持自建集群无缝迁移上云。本文主要演示了如何使用阿里云向量检索服务 Milvus 版与通义千问 VL 大模型,提取图片特征,并使用多模态 Embedding 模型,快速实现多模态搜索。基于灵积(Dashscope)模型服务上的通义千问 API以及 Embedding API 来接入图片、文本等非结构化数据 Embedding 为向量的能力。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
15天前
|
云安全 人工智能 安全
大模型+安全,阿里云发布AI云盾系列产品!
阿里云正式发布AI云盾(Cloud Shield for AI)系列安全产品,包括AI安全护栏、升级云安全中心、WAAP和云防火墙。该系列提供模型输入输出安全、AI-BOM、AI-SPM等能力,构建三层模型安全防御体系,涵盖AI基础设施、大模型及应用安全。其中,AI安全护栏保障生成式AI合规性,实时检测威胁并维护模型健康,支持多模态内容交叉检测的All In One API调用模式。此外,AI-BOM与AI-SPM助力客户持续监控AI资产及安全状态。
121 3
大模型+安全,阿里云发布AI云盾系列产品!
|
25天前
|
机器学习/深度学习 人工智能 算法
别再只看病了,来看看“大数据+AI”是怎么救命的!
别再只看病了,来看看“大数据+AI”是怎么救命的!
59 1
|
15天前
|
人工智能 算法 自动驾驶
AI和大数据:是工具,还是操控人心的“隐形之手”?
AI和大数据:是工具,还是操控人心的“隐形之手”?
50 1
|
2月前
|
存储 人工智能 监控
星云智控科技-优雅草星云物联网AI智控系统软件产品技术栈一览表-优雅草卓伊凡
星云智控科技-优雅草星云物联网AI智控系统软件产品技术栈一览表-优雅草卓伊凡
66 7
星云智控科技-优雅草星云物联网AI智控系统软件产品技术栈一览表-优雅草卓伊凡
|
2月前
|
存储 人工智能 安全
AI 驱动下的阿里云基础设施:技术创新与产品演进
本文整理自阿里云智能集团副总裁、阿里云弹性计算产品线与存储产品线负责人吴结生在“2025 AI势能大会”上的演讲,重点介绍了阿里云在AI基础设施领域的技术创新与产品演进。内容涵盖CIPU架构、盘古存储系统、高性能网络HPN等关键技术,以及第九代英特尔企业实例、ESSD同城冗余云盘等新产品发布。同时,文章详细阐述了灵骏集群的优化措施和可观测能力的提升,展示阿里云如何通过持续创新为AI负载提供强大支持,助力企业在AI时代实现智能化转型。
AI 驱动下的阿里云基础设施:技术创新与产品演进
|
2月前
|
人工智能 自然语言处理 测试技术
通义灵码入选 “2025 年值得关注的 AIGC 产品”,是唯一入选的 AI 编程产品
阿里云的通义灵码是一款基于通义大模型的AI编程助手,能够智能生成代码、优化结构、排查错误并自动生成测试用例,支持多种主流编程语言。在2025年入选《值得关注的AIGC产品》榜单,凭借卓越技术与广泛应用场景成为国内开发者首选。通义灵码已在国内多个行业落地,大幅提升开发效率与代码质量,同时针对中文编程场景优化,支持企业内网部署保障数据安全,推动AI编程技术在教育与科研领域的创新应用。
|
2月前
|
传感器 存储 人工智能
AI时代,企业产品创新中的伪需求与真需求:六大行业举例解析
在AI时代,企业产品创新常面临伪需求与真需求的抉择。文章通过新能源汽车、家电、消费电子、工程机械、家居产品及儿童玩具六大行业实例,解析如何辨别AI功能是否真正满足用户需求。基于IFR四个原则——不增加复杂性、保留核心优点、消除固有缺点、不新增缺点,强调以用户价值为核心,避免技术炫技,实现有意义的产品升级。
101 1
|
2月前
|
传感器 人工智能 定位技术
设计思考如何识别AI 产品创新中的真伪需求?
如何判断AI产品创新中的真伪需求?设计思考提供了一种有效方法。通过共情、定义、构思、原型和测试五个阶段,深入理解用户需求,避免盲目应用AI技术。真需求以解决用户实际痛点为目标,而伪需求则表现为无意义的功能叠加。采用设计思考,企业可精准识别价值,优化产品创新方向。
|
29天前
|
存储 机器学习/深度学习 人工智能
数据与生命的对话:当大数据遇上生物信息学
数据与生命的对话:当大数据遇上生物信息学
67 17
|
16天前
|
机器学习/深度学习 存储 分布式计算
数据科学 vs. 大数据:一场“烧脑”但有温度的较量
数据科学 vs. 大数据:一场“烧脑”但有温度的较量
61 2

相关产品

  • 云原生大数据计算服务 MaxCompute