ICLR 2026|面向问题 + 锚点验证,解锁 LLM 代码优化新范式

简介: 软件工程中代码效率优化至关重要。本文提出一种全新大模型代码优化方案,采用面向问题的优化视角与锚点验证框架,突破局部改进局限与优化税瓶颈,显著提升优化效果、执行效率与代码可靠性,为大模型自动化高性能代码生成开辟实用化新路径。

大模型已能很好的自动生成代码,可代码背后的执行效率短板,却长期被忽略。为此,浙江大学与蚂蚁集团、Stony Brook University联合提出全新大模型代码优化方案——面向问题的优化视角(Problem-Oriented)与锚点验证框架(Anchor Verification),打破现有 LLM 代码优化的局部改进局限与正确性瓶颈。该方案相比大模型直接生成的代码可将代码优化率(单次)提升至 71.06%,执行加速比达 6.08×,正确性同步提升至 74.54%,为 LLM自动化高性能代码生成开辟了实用新路径。

image.png

论文链接:https://arxiv.org/abs/2406.11935

▍背景:LLM 代码优化的两大核心痛点

大语言模型(DeepSeek系列、Qwen Coder 系列等)在代码生成、补全这类基础软件工程任务中已展现出极强的实用性,但在代码性能优化这一关键场景中,仍受两大核心痛点制约,难以满足严格的性能指标与高可靠性要求,无法直接支撑工业级落地:

  1. 优化局限于局部增量改进,缺乏全局算法创新:现有代码优化对数据主流方案依赖 “单一用户对同一问题的迭代提交” 构建优化对(如从用户初始版本到迭代改进版本),本质是对个人思维路径的延续。这种模式下,优化多停留在循环调整、变量声明优化、冗余代码清理等局部调整,无法突破个体认知惯性,实现算法替换(如暴力枚举→动态规划)、数据结构重构(如数组→前缀和矩阵)等能带来量级提升的全局创新;
  2. 正确性与效率的 “优化税” 困境,顾此失彼:代码优化是 “功能正确” 与 “性能提升” 的双目标任务,但 LLM 在追求执行效率时,常出现语义偏差等问题 —— 优化后的代码可能运行更快,却无法保证与原代码功能等价,这种 “为效率牺牲正确性” 的现象被定义为 “优化税”。这一权衡困境直接导致优化结果可靠性不足,严重阻碍了 LLM 代码优化在实际开发中的落地应用。

▍核心创新:两大方案破解行业痛点

1. 面向问题的优化对:汇聚多用户的全局智慧

不同于传统“面向用户”优化对构造方案仅依赖单一用户迭代提交的优化对构建方式,该方案以 “问题” 为核心,将同一代码问题的所有用户有效提交整合为一个整体,构建跨用户的优化轨迹,让 LLM 学习多维度的高效优化思路。

image.png

  • 打破思维壁垒:突破个体认知惯性,整合不同用户/开发者的算法思路,实现从暴力枚举到动态规划、前缀和矩阵、哈希表等全局算法创新,而非单一用户的循环微调、变量优化等局部改进;
  • 缓解数据稀缺:优化对数量随用户数呈指数级增长,推导表明 10 个用户即可让数据量提升一个数量级,大幅降低优化对数据构建成本,解决代码优化领域的数据匮乏难题;
  • 优化质量跃升:通过控制流图分析、语义嵌入可视化等多维度验证,该方案的全局算法优化占比高达 78%,远超传统面向用户方案的 19%,优化效果实现量级提升。

2. 锚点验证框架:用 “慢代码” 保障正确性

针对 “优化税” 这一核心痛点,方案巧妙利用 “待优化慢代码虽低效但功能 100% 正确” 的特性,构建三层闭环验证流水线,有效缓解 “效率与正确性不可兼得” 的困境。

image.png

  • 功能解析与输入生成:LLM 先深度解释慢代码的核心功能,针对性生成覆盖边界场景、异常输入、核心逻辑的测试输入,确保测试场景的全面性;
  • 锚点执行与用例构建:将生成的测试输入送入慢代码实际执行,利用其正确性获取精准输出,过滤无效输入后,形成 “输入 - 输出” 一一对应的100% 可靠验证用例集;
  • 迭代精修优化代码:用验证用例集对 LLM 生成的优化代码进行执行测试,若出现语法错误、语义偏差或功能不匹配,将错误信息反馈给 LLM,驱动其迭代修正,确保优化后代码与原代码功能等价。

image.png


▍应用价值:重构LLM代码优化落地路径

该方案的创新不止于技术突破,更通过工程化设计降低落地门槛,为实际开发场景提供高可用、易集成的解决方案:

  • 灵活部署适配多算力场景:支持 BEST@K 动态策略,无需高算力投入即可实现高效优化 ——BEST@1 模式以最小推理成本满足生产环境的快速优化需求,BEST@8 模式则可实现更极致加速比,让开发者根据算力预算灵活平衡性能与成本;
  • 模块化设计易集成复用:锚点验证框架可作为独立组件,无缝嵌入现有 LLM 代码工具链(如代码生成平台、IDE 插件),无需重构底层逻辑即可快速提升优化代码的正确性,降低技术迁移成本;

▍总结

该研究以 “面向问题的优化视角” 打破单一开发者的思维桎梏,借 “锚点验证框架” 精准破解代码优化的正确性困境,首次在 LLM 代码优化领域实现了 “全局算法创新” 与 “优化税” 的双重突破。实验数据充分验证,该方案能将代码优化的效率、正确性与跨场景泛化能力提升至全新水平,为自动化高性能代码生成提供了工程可行性的技术路径,更有望推动LLM在软件工程领域完成从 “基础代码生成”到“智能深度优化”的关键跨越,为工业级代码研发效率革新注入核心动力。

▍关于我们

我们是蚂蚁集团智能平台工程的全模态代码算法团队。团队成立 3 年以来,在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶级会议发表论文 20 余篇,两次获得蚂蚁技术最高奖 T-Star ,1 次蚂蚁集团最高奖 SuperMA ,我们研发的 CodeFuse 项目连续两年蝉联学术开源先锋项目。

团队常年招聘研究型实习生,有志于 NLP、大模型、多模态、图神经网络的同学欢迎联系 hyu.hugo@antgroup.com,期待与你一起,探索AI的无限可能!🌟


如果您想更快地获取到最新信息,欢迎加入我们的微信群。







企业用户如有需求,加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~

目录
相关文章
|
1月前
|
人工智能 自然语言处理 监控
阿里云JVS Claw是什么?JVS Claw核心功能、使用场景与部署全攻略
阿里云JVS Claw(“养龙虾”)是2026年3月上线的零代码AI智能体平台:https://t.aliyun.com/U/IJbaxg 用户仅凭自然语言指令即可创建专属Clawbot,在安全隔离的云端ClawSpace中自动执行网页浏览、文件处理、内容生成等任务,支持多端同步与技能进化。
804 3
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
开源 | OpAgent v0.2.0 发布,开放在线体验 Demo 和量化模型!
SOTA Web 智能体 OpAgent 发布 v0.2.0 版本,新增在线体验 Demo 和量化模型,教你部署属于自己的 Web 智能体。
204 1
开源 | OpAgent v0.2.0 发布,开放在线体验 Demo 和量化模型!
|
2月前
|
存储 人工智能 机器人
你养的龙虾,怎么才能越用越聪明?
通过三本说明书立人设、建记忆系统告别金鱼脑、开启“心跳”主动服务、积累技能复利、接入生态学本领、组建多智能体团队——龙虾的能力上限,就是你想象力的边界。
875 2
|
2月前
|
机器学习/深度学习 存储 人工智能
横扫11项榜单SOTA:高性能、全尺寸、超高效的多语嵌入模型F2LLM-v2来了
F2LLM-v2问世,支持超200种语言,问鼎11项MTEB榜单,以全尺寸、全透明、全开源的姿态推动AI技术走向全球普惠。
416 0
|
1月前
|
移动开发 Rust 前端开发
2026年前端性能优化实战:如何让首屏加载速度提升80%?
本文聚焦2026年前端性能优化三大趋势:React Server Components(RSC)实现服务端渲染降JS体积70%+;Rust化构建工具(如Vite)提速10–100倍;INP指标取代LCP/FID,聚焦交互响应。结合电商与H5实战案例,首屏加载最高提速80%,转化率提升23%。
|
2月前
|
人工智能 安全 编译器
🚀 前沿软件技术资讯周报
本刊聚焦2026年AI编程前沿:TDAD测试驱动开发、Box Maze安全框架、LPG智能编译优化、VeriAgent硬件感知RTL生成等突破;深度解析意图形式化、PAuth精确授权、SpaceTime编程三大范式;推荐Qwen3-Coder、OpenClaw、Skele-Code等实用技术栈,助开发者迈向“定义意图、AI可靠生成与验证”的新阶段。(239字)
1611 7
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS 2025 | Code Graph Model (CGM):图融合架构重塑代码大模型,探索AI代码研发新范式
代码图模型(CGM)通过专用适配器将仓库代码图集成到LLM的注意力机制中,在 SWE-Bench Lite 基准上实现了44.00%的问题解决率,相比先前开源方法提升了12.33%
841 9
|
2月前
|
JSON 算法 5G
拼多多开放平台商品搜索API技术实践指南
拼多多商品搜索API(pdd.ddk.goods.search)支持关键词检索商品,返回ID、标题、价格、销量等核心信息,适用于比价与选品分析。个人开发者日调用2000次,企业认证可达10万次。需签名认证,支持多维度排序与优惠券筛选。(239字)
|
9月前
|
存储 人工智能 算法
AI 图纸表格识别与智能文档协同处理技术介绍
针对制造业、工程建设等领域图纸表格数据提取效率低、误差高的问题,本文介绍了一套涵盖表格识别、数据导出、EBOM转MBOM及智能文档协同处理的技术方案,实现图纸数据结构化与全生命周期管理。
736 0
|
4月前
|
数据采集 人工智能 自然语言处理
一文读懂LLM微调:新手必知的原理、误区与场景化应用方案
本文深入浅出讲解LLM微调原理与实操,涵盖新手必知的核心概念、常见误区及场景化应用方案。通过类比“学霸特训”,解析微调与提示词区别,推荐轻量级LoRA方法,提供从数据准备、环境搭建到模型训练、效果评估的完整步骤,并附实用工具与避坑指南,助力AI初学者快速掌握定制化模型技能,实现个人或企业级AI应用落地。