大数据AI产品月刊-2025年6月

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 大数据& AI 产品技术月刊【2025年6月】,涵盖6月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。


一、产品功能发布

【人工智能平台 PAI】新功能/规格 - ArtLab 支持基于 ComfyUI 构建并分享 AIGC 应用

帮助客户基于强大但复杂的 ComfyUI 创作工具,实现低门槛、自动化的构建专属 AIGC 应用的产品能力。

【大数据开发治理平台 DataWorks】新功能/规格 - 数据开发支持人工智能平台 PAI Flow

统一大数据开发与 AI 统一产品入口,提升 PAI Flow 与大数据引擎深度联动,实现大数据 AI 一体化开发。

【大数据开发治理平台 DataWorks】新功能/规格 - 安全中心数据访问控制权限申请和审批覆盖三层模型项目

可以通过 DataWorks 安全中心发起数据访问控制申请覆盖 MaxCompute 三层模型项目对应的权限。

【大数据开发治理平台 DataWorks】新功能/规格 - 数据开发数据目录支持 Paimon 建表

支持 Paimon 可视化建表及代码建表,满足不同类型用户多样化元数据创建及管理的需求。

【大数据开发治理平台 DataWorks】新功能/规格 - 数据开发 Workflow 产品体验提升

Workflow 性能优化,内部节点数量翻倍,状态更新。

【大数据开发治理平台 DataWorks】新功能/规格 - 安全中心支持批量配置用户可访问的数据源

管理员可将多个数据源批量授权给工作空间角色、工作空间成员使用,管理效率提升。

【大数据开发治理平台 DataWorks】新功能/规格 - 运维中心支持对手动业务流程打标签

可通过标签管理业务流程实例,有效提升管理效率。

【大数据开发治理平台 DataWorks】新功能/规格 - 调度支持事件触发

可根据事件自动触发工作流的运行。

【开源大数据平台 E-MapReduce】新功能/规格 - 全托管 Spark 支持创建包年包月工作空间

Serverless Spark 支持直接创建包年包月类型的工作空间。

【开源大数据平台 E-MapReduce】新功能/规格 - 全托管 Spark 支持混合计费工作空间

Serverless Spark 支持混合计费类型工作空间。

【开源大数据平台 E-MapReduce】新地域/新可用区 - 全托管 Spark 在西南1(成都)正式开服

EMR Serverless Spark 新增开通西南1(成都)地域,可以在控制台上按需求开通集群。

【开源大数据平台 E-MapReduce】新功能/规格 - 全托管 Spark 支持配置文件管理

Serverless Spark 支持保存配置信息和配置文件。

【开源大数据平台 E-MapReduce】新功能/规格 - 全托管 Spark 支持配置模板

Serverless Spark 支持支持创建多个配置模板,提交任务时可以指定配置模板。

【开源大数据平台 E-MapReduce】新功能/规格 - 全托管 Spark 提供域名管理功能

Serverless Spark 提供域名管理功能。

【检索分析服务 Elasticsearch 版】新功能/规格 - ES Serverless 通用优惠预付抵扣包发布

ES Serverless 推出优惠抵扣包,所有 Serverless 应用、计费项均可参与抵扣。

二、产品活动


云原生大数据计算服务 MaxCompute - 推出3000度计算抵扣包,首次购买5折

通用包每1度计算包可以抵扣 SQL、MaxFrame、Spark 等外表不同用量,用户首次购买可享受5折折扣,请参考具体抵扣规则。

三、产品快讯

ES Serverless 8.17王牌发布:向量检索「火力全开」,智能扩缩「秒级响应」

阿里云 Elasticsearch Serverless 8.17 版重磅升级!向量检索性能飞跃、智能弹性调度实现秒级扩容、成本优化显著。该服务已开放华东/华北/华南多地公测,提供全托管、免运维的搜索解决方案,助力企业应对 AI 时代的海量数据检索需求。

一体系数据平台的进化:基于阿里云 EMR Serverless Spark 的持续演进

基于 EMR Serverless Spark 构建云原生数据平台。通过 DataWorks 实时入湖、构建数仓分层,利用 StarRocks 加速 BI 查询、Spark 支撑 AI 应用。迁移后技术上提升处理能力与效率、简化运维,业务上响应提速、成本降低,为 AI 融合奠定数字化基础。

从 MaxCompute 到 Milvus:通过 DataWorks 进行数据同步,实现海量数据高效相似性检索

通过 DataWorks 数据集成服务,实现将存储在 MaxCompute 中的大规模结构化数据导入 Milvus。充分整合了 MaxCompute 的复杂逻辑计算能力和 Milvus 的高维向量检索优势,适用于电商用户行为分析、医疗知识库构建及游戏内容推荐等多种场景应用,实现多模态数据的融合分析,助力企业实现智能化数据转型。

PAI 推理重磅发布模型权重服务,大幅降低冷启动与扩容时长

阿里云人工智能平台 PAI 平台推出模型权重服务,通过分布式缓存架构、RDMA 高速传输、智能分片等技术,显著提升大语言模型部署效率,解决模型加载耗时过长的业界难题。实测显示,Qwen3-32B 冷启动时间从953秒降至82秒,扩容时间缩短98.2%。

新模型速递:PAI-Model Gallery 云上一键部署 MiniMax-M1 模型

MiniMax 公司6月17日推出4560亿参数大模型 M1,采用混合专家架构和闪电注意力机制,支持百万级上下文处理,高效的计算特性使其特别适合需要处理长输入和广泛思考的复杂任务。阿里云 PAI-ModelGallery 现已接入该模型,提供一键部署、API 调用等企业级解决方案,简化 AI 开发流程。

PAI-TurboX:面向自动驾驶的训练推理加速框架

PAI-TurboX 针对自动驾驶领域的训练与推理难题,提出系统性加速解决方案。通过系统级优化(CPU 亲和性、内存管理等)、数据侧加速(高效 DataLoader、智能样本分组)和模型侧优化(算子融合、设备重映射等),显著提升 BEVFusion、MapTR 等主流模型的训练效率。

四、最佳实践

DistilQwen-ThoughtX 蒸馏模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践

阿里云 PAI 团队开发的 OmniThought 数据集,其中包含了200万思维链。基于此数据集,我们还推出了 DistilQwen-ThoughtX 系列模型,可以通过 RV 和 CD分数对思维链进行筛选,训练得到的模型获得根据问题和本身的认知能力,生成变长思维链的能力。同时在 EasyDistill 框架中开源了 OmniThought 数据集和 DistilQwen-ThoughtX 模型的全部权重。这些模型在性能上超过了 DeepSeek-R1-Distill 系列。

Post-Training on PAI (1):一文览尽开源强化学习框架在 PAI 平台的应用

阿里云人工智能平台 PAI 训练服务 PAI-DLC 支持主流强化学习开源框架的快速高效应用:Cosmos-RL:NVIDIA 推出的 LLM 强化学习训练框架,支持基于 Custom 一键提交 Cosmos-RL 框架任务。Ray:支持已有 Ray 训练脚本通过 PAI-DLC 直接提交。VeRL:字节跳动开源的强化学习与大模型对齐训练框架,PAI-DLC 支持用户提交 Ray/PyTorch 框架任务,结合 VeRL 能力一键提交大规模强化学习任务。

云上 AI 推理平台全掌握 (1):PAI-EAS LLM 服务一键压测

阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供专业的压测方案:丰富模式:支持固定并发测试、固定请求速率测试(每秒请求数)、极限吞吐测试等多种模式。操作便捷:按需模拟测试数据,零代码快速创建压测任务并一键执行。全面评估:自动生成 TTFT、TPOT、TPS、ITL、E2EL 等核心指标的平均值、中位数及P99数据。

云上玩转 Qwen3 系列之四:构建 AI Search RAG 全栈应用

使用 PAI-LangStudio 和 Qwen3,构建基于 AI 搜索开放平台 × Elasticsearch 的 AI Search RAG 智能检索应用。在 PAI- LangStudio 中, 使用 AI 搜索开放平台提供原子化 Embeding/Rerank 模型能力和 Elasticsearch 向量数据库,高效地处理大规模数据,结合大模型 LLM 分析能力,以快速构建一站式 AI Search RAG 增强搜索/混合检索的全栈应用能力。将 AI 智能信息检索与智能问答效率与准确率大大提升。

DistillQwen-ThoughtY:通过变长思维链蒸馏,全面提升模型推理能力!

阿里云 PAI 团队基于 EasyDistill 框架,创新性地采用推理冗余度(RV)和认知难度(CD)双指标筛选机制,实现思维链与模型能力的精准匹配,发布新一代推理模型 DistillQwen-ThoughtY。相关模型和数据集已在 hugging face/ModelScope 等开源社区开放,配套 EasyDistill 框架支持高效知识蒸馏。近期内将推出 DistillQwen-ThoughtY 模型在 PAI-ModelGallery 的一键部署、训练和评测实践。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
7月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
1363 1
|
7月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
475 7
|
7月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
594 0
|
人工智能 大数据 安全
拔俗AI临床大数据科研分析平台:用智能技术加速医学研究新突破
AI临床大数据科研平台基于云原生架构,融合医疗NLP、联邦学习与智能分析技术,破解非结构化数据处理难、多源数据融合难、统计周期长等痛点,实现数据治理、智能分析与安全协作全链路升级,赋能医学科研高效、安全、智能化发展。
337 0
|
人工智能 物联网 语音技术
云知声推多款医疗 AI 产品,病历生成与质控产品今年将站 C 位
云知声的战略是把在垂直行业积累的AI技能放在云端,通过芯片去赋能设备端的边缘计算能力,进而把云端的技术向设备端进行输出。
2791 0
|
7月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1872 73
|
8月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1532 86
|
7月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
747 30
|
7月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
767 2

相关产品

  • 云原生大数据计算服务 MaxCompute