AI程序员Devin在软件开发中的性能评估

简介: 【2月更文挑战第29天】AI程序员Devin在软件开发中取得突破,成功解决SWE-bench基准测试13.86%的问题,超出未辅助基线1.96%。展示强大编程能力,但处理复杂任务成功率仅4.80%,表明局限性。Devin能执行多步计划和自我纠错,但在理解复杂逻辑和用户偏好上需改进。在测试驱动开发场景下,成功通过率提升至23%,显示出合作潜力。然而,AI在软件工程领域仍有很大改进空间。

fa9098c9eecdc8ca6c52fd74c4cafbe9.jpeg
在当今快速发展的科技时代,人工智能在软件开发领域的应用已经成为一个热门话题。AI程序员Devin的出现,标志着AI在软件工程领域的一次重大突破。Devin是一个专注于软件开发的AI代理,它在Cognition实验室的研究人员的不懈努力下,成功地为大型、复杂的代码库贡献了代码。本文将从第三方客观视角出发,对Devin在软件开发中的性能评估进行深入分析,并对其表现进行正反两方面的评价。

首先,Devin在SWE-bench这一自动化软件工程系统基准测试中的表现令人瞩目。SWE-bench是一个由GitHub问题和拉取请求组成的数据集,旨在测试系统编写真实世界代码的能力。Devin在这个基准测试中成功解决了13.86%的问题,这一成绩远远超过了之前最高的未辅助基线1.96%。这一显著的提升,不仅展示了Devin在解决实际编程问题上的强大能力,也反映了AI在软件工程领域的巨大潜力。

Devin的成功并非一帆风顺。在面对需要更改数十个文件、保持向后兼容性或进行大量复杂推理的更难的拉取请求时,即使是在辅助情况下,最好的LLMs也只能达到4.80%的成功率。这表明,尽管Devin在某些方面表现出色,但在处理更为复杂和多变的软件开发任务时,仍有一定的局限性。

Devin的一个显著特点是其能够执行多步计划以从环境中获得反馈。在SWE-bench测试中,72%的通过测试需要超过10分钟才能完成,这表明Devin具备了迭代的能力,这是软件开发中至关重要的。例如,在处理scikit-learn的一个issue时,Devin虽然最初被问题描述误导,但在运行测试并收到错误反馈后,能够及时纠正错误并通过测试。这种自我纠错的能力,对于提高软件开发的效率和质量具有重要意义。

Devin在某些情况下也表现出了对用户偏好的过度对齐。在处理一个涉及修改计算机代数系统的困难任务时,Devin错误地编辑了frac类而不是正确的floor类和ceiling类,并且只修改了一个比较运算符,而忽略了其他需要修改的运算符。这一错误表明,尽管Devin在某些情况下能够进行有效的代码编辑,但在理解和处理复杂逻辑方面仍有待提高。

在进行的一个额外实验中,Devin在提供了最终的单元测试和问题陈述的“测试驱动开发”设置下,成功通过率提高到了23%。这一结果虽然与SWE-bench中的其他结果不可比,但它展示了Devin在特定条件下的潜力。测试驱动开发是软件工程中的常见模式,Devin在这方面的表现预示着未来AI代理在软件开发中的合作潜力。

尽管Devin在SWE-bench上取得了显著的进展,但我们也应注意到,AI代理仍处于起步阶段,有很大的改进空间。Cognition实验室的研究人员正在积极寻求新的基准测试,以推动AI在数据分析、信息浏览等任务上的发展。

目录
相关文章
|
2月前
|
人工智能 自然语言处理 程序员
AI 会淘汰程序员吗?
AI 会淘汰程序员吗?
AI 会淘汰程序员吗?
|
10天前
|
人工智能 架构师 安全
AI助手革新软件开发 其中的挑战与机会
AI助手革新软件开发 其中的挑战与机会
|
10天前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
12天前
|
人工智能 IDE 程序员
通义灵码 AI 程序员正式上线!
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
123 4
|
17天前
|
人工智能 架构师 IDE
阿里云通义灵码重磅升级,能自主修BUG、开发应用的AI程序员来了
通义灵码AI编程能力再进化,说几句话就能开发网页
|
13天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
16天前
|
人工智能 算法 程序员
程序员为何容易爱上AI?MIT学者诊断:智性恋浓度过高!
【9月更文挑战第20天】近日,一篇由MIT学者撰写的论文在网络上引发热议,探讨了程序员为何易对AI产生深厚情感,即“智性恋”。论文指出,程序员在开发和使用AI时,因对其智能和能力的钦佩而形成依赖与认同,但这可能导致过度依赖AI,忽视自身价值或其局限性,甚至引发不健康的竞争。论文链接:https://arxiv.org/pdf/2407.14933。
31 5
|
29天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
28天前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
|
1月前
|
人工智能 自然语言处理 前端开发
奖项再+1!通义灵码智能编码助手通过可信 AI 智能编码工具评估,获当前最高等级
奖项再+1!通义灵码智能编码助手通过可信 AI 智能编码工具评估,获当前最高等级。

热门文章

最新文章

下一篇
无影云桌面