入选国际顶会!阿里云大模型优化与智能体技术取得突破性成果

简介: 近日,在人工智能领域国际顶级会议AAAI 2026上,阿里云专有云团队的两篇论文《Importance-Aware Data Selection for Efficient LLM Instruction Tuning》(Oral)与《Co-EPG: A Framework for Co-Evolution of Planning and Grounding in Autonomous GUI Agents》(Poster)成功入选主会。论文分别针对大型语言模型LLM指令调优数据集质量低、GUI智能体泛化后感知和交互不便等业界难题提出创新解决方案。

image.png

目前两项技术成果已集成至阿里云百炼专属版平台,在多个行业场景中实现应用。


以模型指令弱点值(MIWV)指标 高效筛选高质量数据集

// 研究背景

大型语言模型LLM指令调优,是一种通过细致地调整模型在任务指令上的响应来增强模型性能的方法,能够显著提高模型的表现该方法成效不仅取决于LLM本身固有的能力,还依赖于调优所使用的数据集的质量。

盲目扩大数据集,易出现引入噪声、冗余数据的风险,反而降低了模型指令调优的表现。然而,如需人工标注海量数据,会花费高昂的人力与算力成本。因此,如何能够高效筛选出能最大限度提升性能的高质量数据,成为关键的挑战。

// 技术突破

该论文创新性提出了“模型指令弱点值”(MIWV)指标,用于量化指令数据在提升模型能力方面的重要性。MIWV指标源于模型在使用上下文学习(ICL)时的响应差异,有助于识别最有利于提升指令调优性能的数据。

  • 低成本高效筛选仅需基于公开嵌入模型计算样本相似性,无需付费API或复杂预处理,实现数据的高效简易筛选。

  • 调优效率提升通过MIWV指标,可排除掉噪音和冗余信息,提高数据集质量,从而实现通过更少的数据集,实现更优的训练效果,节省训练资源。


  • 训练效果领先在Alpaca/WizardLM测试中,在相同的训练配置下,筛选基于MIWV选择前1%的数据集训练效果超越全量数据集的训练效果。


// 领先成果

  • 上线综合改写模型至百炼专属版平台,使用60%数据实现多任务平均效果提升3%。

  • MIWV在测试集上的胜率明显领先于最新研究,在效率方面仅次于Superfiltering。针对于Superfiltering,虽然该方法更高效,但数据选择和指令微调中使用的模型不一致,导致其效果差于MIWV


以Planning-Grounding双模型 协同进化架构实现多模块升级

// 研究背

GUI任务自动化作为人工智能应用的核心领域,致力于通过AI代理精准操控图形界面以完成复杂任务。然而,当前该领域面临着两大核心瓶颈。

一是模型隔离问题,针对于多模块协作的架构,各模块仅作为单模块独立优化,忽略了不同模块间协同演进的潜力。

二是数据强依赖问题,单模块优化需依赖海量人工合成的标注数据,受限于数据且难以适应多样化的实际场景。

// 技术突

该论文首创Planning-Grounding双模型协同进化架构,突破单模块优化局限,实现多模块的闭环联合优化,打破传统单模块独立训练局限。

  • 自我迭代能力Co-EPG框架利用已有基准测试集的真实轨迹与执行结果作为反馈信号,构建闭环优化流程,在无需新增人工标注或大规模合成数据的前提下完成多轮迭代训练,显著降低对高成本数据的依赖。

  • 鲁棒评估设计设计基于置信度的动态权重机制来聚合多个Grounding模型的评估结果,采用模型集成策略来提升奖励信号的鲁棒性

  • 高效优化能力在Multimodal-Mind2Web(58.4%)和AndroidControl(83.1%)等测试集上准确率超越SOTA方法

// 领先成

  • GUI Agent作为通用的浏览器操作智能体,已集成至阿里云百炼专属版AutoAgent,支持浏览器网页操作,信息获取执行通过率达75%,任务完成率达95%。

  • 相比于目前业界领先的Explorer-7B和AGUVIS-7B,基于Co-EPG训练的模型在MM-Mind2Web和AndroidControl数据集上均取得了SOTA效果。

此次AAAI入选成果印证了阿里云在大模型优化与智能体领域的技术领先性。未来,阿里云将持续以顶尖学术研究成果反哺产品创新,推动大模型技术从“被动响应”向“主动创造”跃迁,为全球人工智能发展注入阿里能量。

相关文章
|
7天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34456 17
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
18天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
45285 142
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
8天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
4835 20
|
1天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
1692 5
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
7天前
|
人工智能 API 开发者
阿里云百炼 Coding Plan 售罄、Lite 停售、Pro 抢不到?最新解决方案
阿里云百炼Coding Plan Lite已停售,Pro版每日9:30限量抢购难度大。本文解析原因,并提供两大方案:①掌握技巧抢购Pro版;②直接使用百炼平台按量付费——新用户赠100万Tokens,支持Qwen3.5-Max等满血模型,灵活低成本。
1735 5
阿里云百炼 Coding Plan 售罄、Lite 停售、Pro 抢不到?最新解决方案