通义灵码软件工程大模型获顶会最高奖！

2025-07-04 309

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 近日，软件领域国际顶会ISSTA 2025（International Symposium on Software Testing and Analysis）公布最高奖项-杰出论文奖——「通义灵码软件工程大模型SWE-GPT」成为唯一获得该奖项的企业论文

近日，软件领域国际顶会ISSTA 2025（International Symposium on Software Testing and Analysis）公布最高奖项-杰出论文奖——

「通义灵码软件工程大模型SWE-GPT」

成为唯一获得该奖项的企业论文

此次获奖的论文《SWE-GPT: A Process-Centric Language Model for AutomatedSoftware Improvement》详细介绍了通义灵码SWE-GPT的训练框架与训练过程。

ISSTA评审委员会专家点评称：“ SWE-GPT是一种新颖的以「软件开发流程为中心」的大语言模型，它提出的数据合成方案真实模拟了实际软件开发过程，这是AI辅助软件开发领域前进的重要一步。”

论文详细解读

//数据合成

通义灵码SWE-GPT以通义千问Qwen2.5为基座模型，并在后训练阶段进一步模拟人类程序员的认知过程，学习软件工程领域复杂问题的端到端多步骤解决过程。

同时，团队创新性采用合成数据进行迭代模型训练，通过模拟真实软件开发中的动态交互与迭代问题解决过程，比如代码库理解、故障定位和补丁生成等，有效解决现有基础大模型的局限性。

// 模型训练

通义灵码SWE-GPT在模型训练阶段，为了增强训练过程的鲁棒性，通义灵码团队还采用了课程学习的方法，随着迭代的进行，逐步加入当前模型未能解决的问题，循序渐进提高训练样本的复杂度，确保模型巩固基础能力。

//实验测评

此前的实验结果显示，在权威基准SWE-bench-Verified（500项真实GitHub任务）测试中， SWE-GPT 72B以 30.20%问题解决率刷新开源纪录，较Llama 3.1 405B提升22.76%，接近同时期闭源模型GPT-4o的效果。

不仅如此，轻量级SWE-GPT 7B模型以 18.20%的解决率超越Llama 3.1 70B（17.20%），展现了小尺寸模型在复杂软件维护任务中的实用价值。

//延伸应用

更重要的是，SWE-GPT是一个通用框架，可以进行持续拓展，比如以其为基础引入思考能力和测试时扩展（test-time scaling），小尺寸（32B）模型在SWE-bench-Verified上可以达到46%的问题解决率，接近业界领先的闭源模型 Claude 3.5 Sonnet v2 (46.20%) 和 OpenAI o1 (45.60%) 。

通义灵码算法负责人李永彬表示：“基于大模型的软件工程智能化领域的研究和应用正在快速发展，仅靠现有基础模型仍无法满足真实场景的需求，SWE-GPT为AI 辅助软件开发提出了新范式。”

ISSTA是软件工程领域最具影响力的学术会议之一，该会议汇聚了学术界和工业界在软件测试、程序分析、代码质量保障等技术的前沿研究与应用。本届ISSTA共收到550篇投稿，最终录用107篇，其中仅有9篇被评为杰出论文。

通义灵码软件工程大模型获顶会最高奖！

论文详细解读

通义灵码

热门文章

最新文章

相关课程

相关电子书