入选国际顶会!阿里云大模型优化与智能体技术取得突破性成果

简介: 近日,在人工智能领域国际顶级会议AAAI 2026上,阿里云专有云团队的两篇论文《Importance-Aware Data Selection for Efficient LLM Instruction Tuning》(Oral)与《Co-EPG: A Framework for Co-Evolution of Planning and Grounding in Autonomous GUI Agents》(Poster)成功入选主会。论文分别针对大型语言模型LLM指令调优数据集质量低、GUI智能体泛化后感知和交互不便等业界难题提出创新解决方案。

image.png

目前两项技术成果已集成至阿里云百炼专属版平台,在多个行业场景中实现应用。


以模型指令弱点值(MIWV)指标 高效筛选高质量数据集

// 研究背景

大型语言模型LLM指令调优,是一种通过细致地调整模型在任务指令上的响应来增强模型性能的方法,能够显著提高模型的表现该方法成效不仅取决于LLM本身固有的能力,还依赖于调优所使用的数据集的质量。

盲目扩大数据集,易出现引入噪声、冗余数据的风险,反而降低了模型指令调优的表现。然而,如需人工标注海量数据,会花费高昂的人力与算力成本。因此,如何能够高效筛选出能最大限度提升性能的高质量数据,成为关键的挑战。

// 技术突破

该论文创新性提出了“模型指令弱点值”(MIWV)指标,用于量化指令数据在提升模型能力方面的重要性。MIWV指标源于模型在使用上下文学习(ICL)时的响应差异,有助于识别最有利于提升指令调优性能的数据。

  • 低成本高效筛选仅需基于公开嵌入模型计算样本相似性,无需付费API或复杂预处理,实现数据的高效简易筛选。

  • 调优效率提升通过MIWV指标,可排除掉噪音和冗余信息,提高数据集质量,从而实现通过更少的数据集,实现更优的训练效果,节省训练资源。


  • 训练效果领先在Alpaca/WizardLM测试中,在相同的训练配置下,筛选基于MIWV选择前1%的数据集训练效果超越全量数据集的训练效果。


// 领先成果

  • 上线综合改写模型至百炼专属版平台,使用60%数据实现多任务平均效果提升3%。

  • MIWV在测试集上的胜率明显领先于最新研究,在效率方面仅次于Superfiltering。针对于Superfiltering,虽然该方法更高效,但数据选择和指令微调中使用的模型不一致,导致其效果差于MIWV


以Planning-Grounding双模型 协同进化架构实现多模块升级

// 研究背

GUI任务自动化作为人工智能应用的核心领域,致力于通过AI代理精准操控图形界面以完成复杂任务。然而,当前该领域面临着两大核心瓶颈。

一是模型隔离问题,针对于多模块协作的架构,各模块仅作为单模块独立优化,忽略了不同模块间协同演进的潜力。

二是数据强依赖问题,单模块优化需依赖海量人工合成的标注数据,受限于数据且难以适应多样化的实际场景。

// 技术突

该论文首创Planning-Grounding双模型协同进化架构,突破单模块优化局限,实现多模块的闭环联合优化,打破传统单模块独立训练局限。

  • 自我迭代能力Co-EPG框架利用已有基准测试集的真实轨迹与执行结果作为反馈信号,构建闭环优化流程,在无需新增人工标注或大规模合成数据的前提下完成多轮迭代训练,显著降低对高成本数据的依赖。

  • 鲁棒评估设计设计基于置信度的动态权重机制来聚合多个Grounding模型的评估结果,采用模型集成策略来提升奖励信号的鲁棒性

  • 高效优化能力在Multimodal-Mind2Web(58.4%)和AndroidControl(83.1%)等测试集上准确率超越SOTA方法

// 领先成

  • GUI Agent作为通用的浏览器操作智能体,已集成至阿里云百炼专属版AutoAgent,支持浏览器网页操作,信息获取执行通过率达75%,任务完成率达95%。

  • 相比于目前业界领先的Explorer-7B和AGUVIS-7B,基于Co-EPG训练的模型在MM-Mind2Web和AndroidControl数据集上均取得了SOTA效果。

此次AAAI入选成果印证了阿里云在大模型优化与智能体领域的技术领先性。未来,阿里云将持续以顶尖学术研究成果反哺产品创新,推动大模型技术从“被动响应”向“主动创造”跃迁,为全球人工智能发展注入阿里能量。

相关文章
|
4天前
|
云安全 人工智能 安全
AI被攻击怎么办?
阿里云提供 AI 全栈安全能力,其中对网络攻击的主动识别、智能阻断与快速响应构成其核心防线,依托原生安全防护为客户筑牢免疫屏障。
|
14天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
8天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
571 211
|
4天前
|
编解码 Linux 数据安全/隐私保护
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
229 138
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
811 59
|
6天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
1126 157
|
6天前
|
存储 安全 固态存储
四款WIN PE工具,都可以实现U盘安装教程
Windows PE是基于NT内核的轻量系统,用于系统安装、分区管理及故障修复。本文推荐多款PE制作工具,支持U盘启动,兼容UEFI/Legacy模式,具备备份还原、驱动识别等功能,操作简便,适合新旧电脑维护使用。
482 109
下一篇
oss云网关配置