目前两项技术成果已集成至阿里云百炼专属版平台,在多个行业场景中实现应用。
以模型指令弱点值(MIWV)指标 高效筛选高质量数据集
// 研究背景
大型语言模型LLM指令调优,是一种通过细致地调整模型在任务指令上的响应来增强模型性能的方法,能够显著提高模型的表现。该方法成效不仅取决于LLM本身固有的能力,还依赖于调优所使用的数据集的质量。
盲目扩大数据集,易出现引入噪声、冗余数据的风险,反而降低了模型指令调优的表现。然而,如需人工标注海量数据,会花费高昂的人力与算力成本。因此,如何能够高效筛选出能最大限度提升性能的高质量数据,成为关键的挑战。
// 技术突破
该论文创新性提出了“模型指令弱点值”(MIWV)指标,用于量化指令数据在提升模型能力方面的重要性。MIWV指标源于模型在使用上下文学习(ICL)时的响应差异,有助于识别最有利于提升指令调优性能的数据。
- 低成本高效筛选:仅需基于公开嵌入模型计算样本相似性,无需付费API或复杂预处理,实现数据的高效简易筛选。
- 调优效率提升:通过MIWV指标,可排除掉噪音和冗余信息,提高数据集质量,从而实现通过更少的数据集,实现更优的训练效果,节省训练资源。
- 训练效果领先:在Alpaca/WizardLM测试中,在相同的训练配置下,筛选基于MIWV选择前1%的数据集,其训练效果超越全量数据集的训练效果。
// 领先成果
- 上线综合改写模型至百炼专属版平台,使用60%数据实现多任务平均效果提升3%。
- MIWV在测试集上的胜率明显领先于最新研究,在效率方面仅次于Superfiltering。针对于Superfiltering,虽然该方法更高效,但数据选择和指令微调中使用的模型不一致,导致其效果差于MIWV。
以Planning-Grounding双模型 协同进化架构实现多模块升级
// 研究背景
GUI任务自动化作为人工智能应用的核心领域,致力于通过AI代理精准操控图形界面以完成复杂任务。然而,当前该领域面临着两大核心瓶颈。
一是模型隔离问题,针对于多模块协作的架构,各模块仅作为单模块独立优化,忽略了不同模块间协同演进的潜力。
二是数据强依赖问题,单模块优化需依赖海量人工合成的标注数据,受限于数据且难以适应多样化的实际场景。
// 技术突破
该论文首创Planning-Grounding双模型协同进化架构,突破单模块优化局限,实现多模块的闭环联合优化,打破传统单模块独立训练局限。
- 自我迭代能力:Co-EPG框架利用已有基准测试集的真实轨迹与执行结果作为反馈信号,构建闭环优化流程,在无需新增人工标注或大规模合成数据的前提下完成多轮迭代训练,显著降低对高成本数据的依赖。
- 鲁棒评估设计:设计基于置信度的动态权重机制来聚合多个Grounding模型的评估结果,采用模型集成策略来提升奖励信号的鲁棒性。
- 高效优化能力:在Multimodal-Mind2Web(58.4%)和AndroidControl(83.1%)等测试集上准确率超越SOTA方法。
// 领先成果
- GUI Agent作为通用的浏览器操作智能体,已集成至阿里云百炼专属版AutoAgent,支持浏览器网页操作,信息获取执行通过率达75%,任务完成率达95%。
- 相比于目前业界领先的Explorer-7B和AGUVIS-7B,基于Co-EPG训练的模型在MM-Mind2Web和AndroidControl数据集上均取得了SOTA效果。
此次AAAI入选成果印证了阿里云在大模型优化与智能体领域的技术领先性。未来,阿里云将持续以顶尖学术研究成果反哺产品创新,推动大模型技术从“被动响应”向“主动创造”跃迁,为全球人工智能发展注入阿里能量。