入选国际顶会!阿里云大模型优化与智能体技术取得突破性成果

简介: 近日,在人工智能领域国际顶级会议AAAI 2026上,阿里云专有云团队的两篇论文《Importance-Aware Data Selection for Efficient LLM Instruction Tuning》(Oral)与《Co-EPG: A Framework for Co-Evolution of Planning and Grounding in Autonomous GUI Agents》(Poster)成功入选主会。论文分别针对大型语言模型LLM指令调优数据集质量低、GUI智能体泛化后感知和交互不便等业界难题提出创新解决方案。

image.png

目前两项技术成果已集成至阿里云百炼专属版平台,在多个行业场景中实现应用。


以模型指令弱点值(MIWV)指标 高效筛选高质量数据集

// 研究背景

大型语言模型LLM指令调优,是一种通过细致地调整模型在任务指令上的响应来增强模型性能的方法,能够显著提高模型的表现该方法成效不仅取决于LLM本身固有的能力,还依赖于调优所使用的数据集的质量。

盲目扩大数据集,易出现引入噪声、冗余数据的风险,反而降低了模型指令调优的表现。然而,如需人工标注海量数据,会花费高昂的人力与算力成本。因此,如何能够高效筛选出能最大限度提升性能的高质量数据,成为关键的挑战。

// 技术突破

该论文创新性提出了“模型指令弱点值”(MIWV)指标,用于量化指令数据在提升模型能力方面的重要性。MIWV指标源于模型在使用上下文学习(ICL)时的响应差异,有助于识别最有利于提升指令调优性能的数据。

  • 低成本高效筛选仅需基于公开嵌入模型计算样本相似性,无需付费API或复杂预处理,实现数据的高效简易筛选。

  • 调优效率提升通过MIWV指标,可排除掉噪音和冗余信息,提高数据集质量,从而实现通过更少的数据集,实现更优的训练效果,节省训练资源。


  • 训练效果领先在Alpaca/WizardLM测试中,在相同的训练配置下,筛选基于MIWV选择前1%的数据集训练效果超越全量数据集的训练效果。


// 领先成果

  • 上线综合改写模型至百炼专属版平台,使用60%数据实现多任务平均效果提升3%。

  • MIWV在测试集上的胜率明显领先于最新研究,在效率方面仅次于Superfiltering。针对于Superfiltering,虽然该方法更高效,但数据选择和指令微调中使用的模型不一致,导致其效果差于MIWV


以Planning-Grounding双模型 协同进化架构实现多模块升级

// 研究背

GUI任务自动化作为人工智能应用的核心领域,致力于通过AI代理精准操控图形界面以完成复杂任务。然而,当前该领域面临着两大核心瓶颈。

一是模型隔离问题,针对于多模块协作的架构,各模块仅作为单模块独立优化,忽略了不同模块间协同演进的潜力。

二是数据强依赖问题,单模块优化需依赖海量人工合成的标注数据,受限于数据且难以适应多样化的实际场景。

// 技术突

该论文首创Planning-Grounding双模型协同进化架构,突破单模块优化局限,实现多模块的闭环联合优化,打破传统单模块独立训练局限。

  • 自我迭代能力Co-EPG框架利用已有基准测试集的真实轨迹与执行结果作为反馈信号,构建闭环优化流程,在无需新增人工标注或大规模合成数据的前提下完成多轮迭代训练,显著降低对高成本数据的依赖。

  • 鲁棒评估设计设计基于置信度的动态权重机制来聚合多个Grounding模型的评估结果,采用模型集成策略来提升奖励信号的鲁棒性

  • 高效优化能力在Multimodal-Mind2Web(58.4%)和AndroidControl(83.1%)等测试集上准确率超越SOTA方法

// 领先成

  • GUI Agent作为通用的浏览器操作智能体,已集成至阿里云百炼专属版AutoAgent,支持浏览器网页操作,信息获取执行通过率达75%,任务完成率达95%。

  • 相比于目前业界领先的Explorer-7B和AGUVIS-7B,基于Co-EPG训练的模型在MM-Mind2Web和AndroidControl数据集上均取得了SOTA效果。

此次AAAI入选成果印证了阿里云在大模型优化与智能体领域的技术领先性。未来,阿里云将持续以顶尖学术研究成果反哺产品创新,推动大模型技术从“被动响应”向“主动创造”跃迁,为全球人工智能发展注入阿里能量。

相关文章
|
4月前
|
存储 人工智能 运维
阿里云,混合云第一!
近日,国际权威市场研究机构IDC发布《中国混合云市场份额,2024:持续在政企行业增长》报告,中国政企持续加大在混合云方面的投资与建设。阿里云凭借公专一体的技术体系,完整的产品与服务与销售体系,蝉联中国混合云PaaS及服务市场份额第一,并在混合云整体市场份额中保持领先。
312 0
|
4月前
|
弹性计算 安全 专有云
阿里云专有云ECS✖️四川农商银行联合解决方案荣获2025龙蜥大会“最佳联合解决方案”
2025年11月17日,由龙蜥社区主办的“2025龙蜥操作系统大会”在北京·星地艺术中心举行。会上,阿里云专有云ECS团队与四川农村商业联合银行股份有限公司联合打造的“基于CPU内生能力的云上加解密方案”荣获大会“最佳联合解决方案奖”。
241 0
|
存储 城市大脑 运维
中国信通院&沙利文最新报告:阿里云混合云全面领先
中国信息通信研究院与国际权威分析机构沙利文(Frost & Sullivan)联合发布《2023 混合云价值影响力矩阵》,报告显示,阿里云是唯一一家全域领导者,在技术表现域、战略布局域以及市场表现域三个维度均排名领先于97%的企业。
1073 1
|
4月前
|
弹性计算 搜索推荐 异构计算
租用阿里云服务器一年要多少钱?2025年费用价格全解析
2025年阿里云服务器优惠持续,轻量应用服务器2核2G 200M带宽38元/年起,ECS经济型e实例2核2G 3M带宽99元/年,u1实例2核4G 5M带宽199元/年,4核16G和8核32G低至89元/月起,新老用户同享,续费不涨价。
1329 143
|
5月前
|
人工智能 运维 安全
唯一! 阿里云专有云全维度满分
近日,国际数据公司IDC发布《中国专有云运营平台技术能力评估,2025》,阿里云是唯一在七个维度全部获得满分的厂商,体现了飞天企业版全面领先的技术实力与产品先进性。
309 0
|
5月前
|
存储 人工智能 专有云
云栖政企速递|飞天企业版“双I”战略正式发布,开启专有云智能化与国际化新篇章
2025年9月25日,在杭州云栖大会“专有云智能化与国际化论坛”上,阿里云正式发布面向未来十年的飞天企业版“双I”战略——以AI(智能化)为技术方向,International(国际化)为市场方向,全面推动专有云“智能化升级”与“全球化拓展”的双重跃迁。
807 0
|
4月前
|
存储 缓存 弹性计算
阿里云服务器实例怎么选?经济型、通用算力型、计算型、通用型、内存型区别及选择参考
在我们通过阿里云的活动选购云服务器的时候会发现,可选的云服务器实例主要以经济型、通用算力型、计算型、通用型、内存型为主,相同实例可能又分为多个实例规格(例如通用算力型u1与u2i),另外,同配置的云服务器往往有多个不同的实例可选。本文为大家详细介绍阿里云的经济型、通用算力型、计算型、通用型和内存型实例的性能特点及适用场景,以供大家选择参考。
478 25
|
4月前
|
数据采集 弹性计算 运维
云服务诊断:一键定位异常,快速恢复业务
云服务诊断是阿里云推出的免费运维工具,提供“资源健康状态”和“问题诊断”两大功能。可精准监控每个实例的健康状况,支持一键全量诊断与常见问题场景快速排查,帮助用户迅速定位并修复ECS、SLB、EIP等资源异常,提升运维效率,保障业务稳定运行。
459 22
|
4月前
|
消息中间件 弹性计算 关系型数据库
阿里云服务器2核8G、4核16G、8核32G配置ECS实例规格族和选型指南
阿里云2核8G、4核16G、8核32G配置推荐选用r系列(内存型)或g系列(通用型)企业级独享实例,vCPU与内存比为1:4。r系列适合Redis、内存数据库等高内存需求场景;g系列适用于Java Web、MySQL等均衡型应用。同规格族内,核数越高,网络PPS、IOPS性能越强。新购建议选新一代r8i/g8i,性能提升显著;成本敏感可选r7/g7。避免用2核8G部署重负载数据库,高并发Kafka场景优选c系列。具体配置与活动价格详见阿里云官网。
605 1
|
5月前
|
人工智能 运维 专有云
持续领先!阿里云入选2025年Gartner®分布式混合基础设施魔力象限
近日,Gartner发布2025年《分布式混合基础设施魔力象限》报告,在混合云场景下,阿里云凭借飞天企业版(Apsara Stack)、边缘云ENS和云盒CloudBox产品组合能力,在“执行能力”和“愿景完整性”两大维度分别处于亚太厂商中最高最远的位置。
448 6

热门文章

最新文章