通义灵码软件工程大模型获顶会最高奖!

简介: 近日,软件领域国际顶会ISSTA 2025(International Symposium on Software Testing and Analysis)公布最高奖项-杰出论文奖——「通义灵码软件工程大模型SWE-GPT」成为唯一获得该奖项的企业论文

近日,软件领域国际顶会ISSTA 2025(International Symposium on Software Testing and Analysis)公布最高奖项-杰出论文奖——


「通义灵码软件工程大模型SWE-GPT」

成为唯一获得该奖项的企业论文



此次获奖的论文《SWE-GPT: A Process-Centric Language Model for AutomatedSoftware Improvement》详细介绍了通义灵码SWE-GPT的训练框架与训练过程。


ISSTA评审委员会专家点评称:“ SWE-GPT是一种新颖的以「软件开发流程为中心」的大语言模型,它提出的数据合成方案真实模拟了实际软件开发过程,这是AI辅助软件开发领域前进的重要一步。”


论文详细解读


//数据合成

通义灵码SWE-GPT以通义千问Qwen2.5为基座模型,并在后训练阶段进一步模拟人类程序员的认知过程,学习软件工程领域复杂问题的端到端多步骤解决过程。


同时,团队创新性采用合成数据进行迭代模型训练,通过模拟真实软件开发中的动态交互与迭代问题解决过程,比如代码库理解、故障定位和补丁生成等,有效解决现有基础大模型的局限性。


// 模型训练

通义灵码SWE-GPT在模型训练阶段,为了增强训练过程的鲁棒性,通义灵码团队还采用了课程学习的方法,随着迭代的进行,逐步加入当前模型未能解决的问题,循序渐进提高训练样本的复杂度,确保模型巩固基础能力。



//实验测评

此前的实验结果显示,在权威基准SWE-bench-Verified(500项真实GitHub任务)测试中, SWE-GPT 72B以 30.20%问题解决率刷新开源纪录,较Llama 3.1 405B提升22.76%,接近同时期闭源模型GPT-4o的效果。



不仅如此,轻量级SWE-GPT 7B模型以 18.20%的解决率超越Llama 3.1 70B(17.20%),展现了小尺寸模型在复杂软件维护任务中的实用价值。


//延伸应用

更重要的是,SWE-GPT是一个通用框架,可以进行持续拓展,比如以其为基础引入思考能力和测试时扩展(test-time scaling),小尺寸(32B)模型在SWE-bench-Verified上可以达到46%的问题解决率,接近业界领先的闭源模型 Claude 3.5 Sonnet v2 (46.20%) 和 OpenAI o1 (45.60%) 。


通义灵码算法负责人李永彬表示:“基于大模型的软件工程智能化领域的研究和应用正在快速发展,仅靠现有基础模型仍无法满足真实场景的需求,SWE-GPT为AI 辅助软件开发提出了新范式。”


ISSTA是软件工程领域最具影响力的学术会议之一,该会议汇聚了学术界和工业界在软件测试、程序分析、代码质量保障等技术的前沿研究与应用。本届ISSTA共收到550篇投稿,最终录用107篇,其中仅有9篇被评为杰出论文。

相关文章
|
12天前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
23天前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
784 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
2月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
377 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
2月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
841 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
3月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
326 1
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
283 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
1月前
|
Java API 开发工具
灵码产品演示:软件工程架构分析
本演示展示灵码对复杂软件项目的架构分析与文档生成能力。通过Qwen3模型,结合PlantUML,自动生成系统架构图、微服务时序图,并提取API接口文档,实现高效、智能的代码理解与文档输出。
137 5
|
1月前
|
机器学习/深度学习 编解码 人工智能
InternVL3.5多模态大模型开源发布,1B-241B九种尺寸,支持跨平台GUI自动化与矢量图生成
近日,上海人工智能实验室(上海AI实验室)重磅开源发布了多模态大模型书生·万象 InternVL3.5,通过创新的级联式强化学习(Cascade RL)、动态视觉分辨率路由与解耦部署架构,实现推理能力、部署效率与通用能力的全面升级。
588 7

热门文章

最新文章