AI程序员Devin在软件开发中的性能评估-阿里云开发者社区

AI程序员Devin在软件开发中的性能评估

2024-03-20 105

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【2月更文挑战第29天】AI程序员Devin在软件开发中取得突破，成功解决SWE-bench基准测试13.86%的问题，超出未辅助基线1.96%。展示强大编程能力，但处理复杂任务成功率仅4.80%，表明局限性。Devin能执行多步计划和自我纠错，但在理解复杂逻辑和用户偏好上需改进。在测试驱动开发场景下，成功通过率提升至23%，显示出合作潜力。然而，AI在软件工程领域仍有很大改进空间。

在当今快速发展的科技时代，人工智能在软件开发领域的应用已经成为一个热门话题。AI程序员Devin的出现，标志着AI在软件工程领域的一次重大突破。Devin是一个专注于软件开发的AI代理，它在Cognition实验室的研究人员的不懈努力下，成功地为大型、复杂的代码库贡献了代码。本文将从第三方客观视角出发，对Devin在软件开发中的性能评估进行深入分析，并对其表现进行正反两方面的评价。

首先，Devin在SWE-bench这一自动化软件工程系统基准测试中的表现令人瞩目。SWE-bench是一个由GitHub问题和拉取请求组成的数据集，旨在测试系统编写真实世界代码的能力。Devin在这个基准测试中成功解决了13.86%的问题，这一成绩远远超过了之前最高的未辅助基线1.96%。这一显著的提升，不仅展示了Devin在解决实际编程问题上的强大能力，也反映了AI在软件工程领域的巨大潜力。

Devin的成功并非一帆风顺。在面对需要更改数十个文件、保持向后兼容性或进行大量复杂推理的更难的拉取请求时，即使是在辅助情况下，最好的LLMs也只能达到4.80%的成功率。这表明，尽管Devin在某些方面表现出色，但在处理更为复杂和多变的软件开发任务时，仍有一定的局限性。

Devin的一个显著特点是其能够执行多步计划以从环境中获得反馈。在SWE-bench测试中，72%的通过测试需要超过10分钟才能完成，这表明Devin具备了迭代的能力，这是软件开发中至关重要的。例如，在处理scikit-learn的一个issue时，Devin虽然最初被问题描述误导，但在运行测试并收到错误反馈后，能够及时纠正错误并通过测试。这种自我纠错的能力，对于提高软件开发的效率和质量具有重要意义。

Devin在某些情况下也表现出了对用户偏好的过度对齐。在处理一个涉及修改计算机代数系统的困难任务时，Devin错误地编辑了frac类而不是正确的floor类和ceiling类，并且只修改了一个比较运算符，而忽略了其他需要修改的运算符。这一错误表明，尽管Devin在某些情况下能够进行有效的代码编辑，但在理解和处理复杂逻辑方面仍有待提高。

在进行的一个额外实验中，Devin在提供了最终的单元测试和问题陈述的“测试驱动开发”设置下，成功通过率提高到了23%。这一结果虽然与SWE-bench中的其他结果不可比，但它展示了Devin在特定条件下的潜力。测试驱动开发是软件工程中的常见模式，Devin在这方面的表现预示着未来AI代理在软件开发中的合作潜力。

尽管Devin在SWE-bench上取得了显著的进展，但我们也应注意到，AI代理仍处于起步阶段，有很大的改进空间。Cognition实验室的研究人员正在积极寻求新的基准测试，以推动AI在数据分析、信息浏览等任务上的发展。

AI程序员Devin在软件开发中的性能评估

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

AI程序员Devin在软件开发中的性能评估

热门文章

最新文章

相关课程

相关电子书

相关实验场景