华人开源最强「AI 程序员」炸场,让 GPT-4 自己修 Bug!

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 普林斯顿大学推出开源软件工程代理SWE-agent,利用GPT-4转化成能修复GitHub错误的AI程序员。在某些基准测试中,SWE-agent的表现与Devin相当,甚至在修复Bug速度上超越Devin,平均只需93秒。其特点是拥有开源接口,支持代码编辑和执行,提高了与代码库的交互效率。

自从“AI 程序员”Devin 问世之后,近期的一大趋势就是程序员们争先恐后地要让自己失业,试图抢先造出比自己更强大的程序员。

普林斯顿大学为软件工程界迎来了一位新星——SWE-agent,论文将在 4 月 10 日正式发布,目前项目已在 GitHub 上开源。

image.png

GitHub:https://github.com/princeton-nlp/SWE-agent

和其他的“AI 程序员”相比,SWE-agent 的特点就是将 GPT-4 这样的大型语言模型(LLMs)转化为软件工程代理,使其能够修复真实 GitHub 仓库中的错误和问题。SWE-agent 在软件工程基准测试中的准确度与 Devin 相当,在解决 GitHub 仓库问题上的性能甚至超过了 Devin:SWE-agent 平均只需 93 秒就能修完 Bug。

完整的 SWE-bench 基准测试结果显示,SWE-agent 修复了 12.29% 的问题,Debin 则是 13.84%——但 SWE-agent 有一大优势:开源。这一成绩也表明,开源模型有能力追赶甚至超越闭源模型的性能。SWE Agent 的高精度显示了其处理复杂软件工程任务的能力。

image.png

SWE-agent 的一个核心特性是其开源代理计算机接口,该接口支持代码的编辑和执行。这一专门设计的接口旨在简化代理(由 GPT-4 驱动)与代码的交互,提高任务执行效率。通过提供诸如导航仓库、搜索文件、编辑行和将输入转换为代码等特定命令,代理计算机接口确保了代理与代码库之间的无缝交互。

代理计算机接口的设计对 SWE-agent 的性能至关重要。研究发现,将 GPT-4 连接到一个普通的 bash 终端并不能获得最佳效果。因此,专门设计了一个对语言模型友好的代理计算机接口,以提高代理的理解能力和性能。这种新设计促进了代理与代码库之间的有效沟通,确保了解决软件工程问题的准确性和效率。

image.png

SWE-agent 通过一个专门的终端与代码进行交互和执行任务。这个终端允许代理打开、滚动和编辑文件,确保精确更改,避免错误。它还使代理能够编写和执行测试,从而优化代码质量和效率。这个终端对 SWE-agent 的性能至关重要,增强了其有效处理软件工程任务的能力。

SWE-agent 的一作、华人 John Yang 在 X 上用一张图解释了这点:

image.png

最终实现的性能,比前段时间爆火的 RAG 检索技术要强很多:

image.png

SWE-agent 开发过程中还有一个有趣发现是,限制 AI 系统访问的信息量可以提升其性能。通过仅允许系统一次查看 100 行代码,而不是整个文件,代理的规划和执行变得更加高效。这种限制有助于简化代理的思维过程,使其能够专注于处理更小部分的代码。这种优化策略已被证明对 SWE-agent 的整体性能有显著提升。

英伟达研究科学家 Jim Fan 也在 X 上盛赞 SWE:“通过精心调整 GPT-4 命令行工具的设计,足以在 SWE-bench 性能测试中取得 12.3% 的结果。既没有神奇的技术革新,也不需要模型的重大突破。

待到 GPT-5 问世,其在执行指令、工具操作及处理长篇幅上下文的能力上必将实现显著飞跃。届时,当前热议的所谓“提示工程 2.0”技术或许不会像现在这般关键。在此特别点赞 John Yang 的工作成果,他剥去了过度炒作的外衣,让我们看到了工程的实质是回归基础并注重实用性的改进措施。”

image.png

整体看下来,这一发布简单明了,没有一点炒作成分。在 4 月 10 日即将发布的论文中,普林斯顿大学团队还将深入探讨代理的技术架构、算法和性能优化策略,并详细介绍成本优化策略:SWE-agent 旨在将每个任务的成本控制在 4 美元以内,论文中会明确解决任务的平均成本。

————————————————

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

原文链接:https://blog.csdn.net/csdnnews/article/details/137386846

好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关文章
|
1月前
|
人工智能 程序员
AI程序员入职阿里云
AI程序员入职阿里云
|
2天前
|
人工智能 自然语言处理 程序员
如何看待首个 AI 程序员入职科技公司?
【5月更文挑战第3天】通义灵码入职阿里云,那么 如何看待首个 AI 程序员入职科技公司?
|
9天前
|
人工智能 自然语言处理 算法
分享几个.NET开源的AI和LLM相关项目框架
分享几个.NET开源的AI和LLM相关项目框架
|
13天前
|
人工智能 JSON API
OpenAI GPT-4 Turbo发布:开创AI新时代
OpenAI GPT-4 Turbo发布:开创AI新时代
39 2
|
16天前
|
人工智能 算法 程序员
AI程序员与人类程序员如何进行有效的合作
AI程序员与人类程序员的协作是软件开发的关键。双方通过知识共享、任务分配、代码审查和创新合作,提升效率和质量。有效沟通、尊重彼此优势、清晰分工、持续学习以及解决冲突是合作成功的关键。这种合作不仅利用AI的自动化能力,也发挥人类的创造力,共同推动行业进步。
|
16天前
|
人工智能 算法 安全
全球首位AI程序员诞生:对程序员的影响将会有多大?
全球首位AI程序员的诞生将深远影响程序员行业。自动化代码编写和优化将提升效率,减轻人工负担;AI能进行缺陷检测和错误修复,增强软件质量。AI还能促进知识传承和协作,成为程序员的智能导师。尽管可能影响部分传统编码职位,但也将创造新机遇,推动程序员向更复杂任务转型。随着AI技术发展,未来软件开发将加速自动化,同时也需关注伦理和安全问题。人类与AI的协同将塑造行业新未来!
|
17天前
|
存储 人工智能 测试技术
【AI智能体】SuperAGI-开源AI Agent 管理平台
【4月更文挑战第9天】智能体管理平台SuperAGI简介及实践
|
19天前
|
人工智能 机器人
【好玩AI】【Prompt】情人节了,用GPT写个【骂醒恋爱脑】的机器人跟自己对话吧
【好玩AI】【Prompt】情人节了,用GPT写个【骂醒恋爱脑】的机器人跟自己对话吧
37 0
|
23天前
|
人工智能 安全 测试技术
[译][AI Meta Llama-3] 最强开源大模型Llama 3发布!
Meta发布开源大模型Llama 3,这是最先进的开放大型语言模型,将在多个云服务平台上线,并获多家硬件厂商支持。Llama 3致力于负责任的开发,提供新的信任和安全工具,如Llama Guard 2、Code Shield和CyberSec Eval 2。未来将推出新功能、更长上下文和增强性能。Llama 3基于文本的模型已发布,目标是与最佳专有模型竞争,并计划扩展至多语言和多模态。预训练模型在性能上树立新标准,展示出在各种基准测试中的优势。用户现可在Meta AI体验Llama 3技术。
[译][AI Meta Llama-3] 最强开源大模型Llama 3发布!
|
26天前
|
人工智能 程序员 开发工具
“AI 程序员入职系列”第二弹:如何利用通义灵码光速改写项目编程语言?
本文中阿里云后端工程师云徊将从项目开发的实际需求出发,演示通义灵码在开发工作中可提供的帮助。