是成就还是削弱？AI代码生成工具与程序员的「相爱相杀」-阿里云开发者社区

是成就还是削弱？AI代码生成工具与程序员的「相爱相杀」

2023-05-17 173

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_基础版，每接口每天50万次

NLP自然语言处理_高级版，每接口累计50万次

NLP 自学习平台，3个模型定制额度 1个月

简介： 是成就还是削弱？AI代码生成工具与程序员的「相爱相杀」

当 AI 代码生成工具越来越深入地参与到编程工作中，一些人担心长此以往它会不会取代人类程序员呢？IEEE 的一篇文章探讨了这类 AI 辅助工具的发展历程、对程序员的影响以及未来走向。

程序员注定要被取代吗？自从 OpenAI 的大规模语言模型 GPT-3 展示其基于简单的书面指令创建 HTML 网站这一惊艳的能力以来，计算机编程社区便一直被该问题笼罩着。

自那之后的几个月里，更是出现了可以根据自然语言描述（口头或书面人类语言）编写简单但完整的计算机程序以及加快程序员工作进程的自动编程助手。AI 会在多大程度上取代或增强程序员的工作呢？

IEEE Spectrum 就此咨询了一些专家，得到的坏消息是编程或许注定要被取代。但也有好消息，即在可预见的未来，计算机编程和软件开发似乎仍将是一项人类参与度极高的工作。与此同时，AI 赋能的自动代码生成通过允许在更短时间里编写更多代码，从而越来越加速软件开发。

亚马逊 AI 服务副总裁 Vasi Philomin 表示，「我不相信 AI 会完全取代人类开发者。AI 工具可以将程序员从日常任务中解放出来，但计算机编程的创造性工作仍将继续存在。」

如果有人想要成为一名开发者，但 10 年后，他们并不一定需要学习一种编程语言。相反，他们需要理解创建计算机程序的语义、概念和逻辑序列，这会将软件开发开放给更广泛的人群。

计算机编程的智能化、自动化程度越来越高

当 1940 年代电子计算机编程开始时，程序员使用数字机器码编写。直到 1950 年代中叶，美国杰出女性计算机科学家 Grace Hopper 及其 Remington Rand 公司的团队开发了 FLOW-MATIC，它允许程序员使用有限的英语词汇来编写程序。

从那时起，编程语言越来越高效，程序员的工作也更加高效。

AI 编写的代码成为更广泛改变的最前沿，它允许人们完全不用编码也能编写软件。现在已经有了像 Akkio 这样的无代码 AI 开发平台，人们可以通过简单的拖放和单击按钮功能构建机器学习模型。微软的 Power Platform 平台包括了一系列低代码产品，用户只需描述就可以生成简单的应用程序。

今年 6 月，亚马逊推出了 CodeWhisperer 预览版，这是一个基于机器学习的编程助手，类似于 GitHub 的 Copilot。这两个工具都是基于大型语言模型（LLMs），这些模型已经在海量代码库中进行了训练。当程序员编写代码时，CodeWhisperer 和 Copilot 都会提供自动补全建议，并根据简单的自然语言短语给出可执行指令建议。

前几天，GitHub 对 2000 名开发者展开了一项调研，结果发现，Copilot 将一些编码任务的时间缩短了一半，并提升了开发者对自身工作的整体满意度。

超越代码自动补全并不容易

但如果想要超越自动补全，则问题在于将意图（intent）教授给计算机。软件需求通常是模糊的，自然语言的不准确也众所周知。

英国人工智能初创公司 Diffblue 致力于使用 AI 检查和纠正代码，其联合创始人之一 Peter Schrammel 对此表示，想要解决英文书写规范中存在的歧义，则需要进行一些增量改进，在人与机器之间展开一些对话。

为了解决这些问题，微软的研究人员最近提出像基于 LLM 的代码生成中添加一种反馈机制，以便计算机在生成代码之前要求程序员澄清任何歧义的地方。微软的这一交互式系统名为 TiCoder，通过生成所谓的「测试驱动用户意图形式化」（TDUIF）来细化和形式化用户意图。

TDUIF 试图使用迭代反馈来判断程序员的算法意图，然后生成与程序员所表达意图一致的代码。下图为 TDUIF 的工作流。
论文地址：https://arxiv.org/abs/2208.05950

根据相关论文，当在 Mostly Basic Programming Problems（MBPP）基准上评估时，TiCoder 将自动生成代码的准确率从 48％提升到了 85％。MBPP 旨在评估机器生成的代码，它包含大约 1000 个众包 Python 编程问题，由入门级程序员来解决。

一个代码单元可以长达几百行，它是程序中可以独立维护和执行的最小部分。一套单元测试通常由数十个单元测试组成，每个单元测试包含 10 到 20 行代码，用来检查单元是否按预期执行，以便当你将单元堆叠一起时，程序按预期工作。

单元测试对于调试单个函数以及手动更改代码时检测错误非常有用。此外，一个单元测试还可以用作代码单元的规范，并用来指导程序员编写干净、无 bug 的代码。虽然并没有很多的程序员追求真正的测试驱动开发，其中首先要编写单元测试，但单元测试与单元往往一起编写。

专家认为：人类程序员不会因 AI 代码生成失去工作

根据 2019 Diffblue 开发者调研的结果，开发者将大约 35% 的时间用来编写质量控制测试，而不是编写用于生产用途的代码，因此实现这部分工作的自动化就可以显著地提高生产力。

同时，Copilot、CodeWhisperer 以及其他 AI 编程助手包都可以用作编写单元测试的交互式自动补全工具。程序员得到编码建议，并选择其中效果最好的。

今年 2 月份，DeepMind 进一步使用 AlphaCode 进行完全自动代码生产。AlphaCode 是一种大型语言模型，可以根据自然语言指令编写简单的计算机程序。它使用编码器 - 解码器 Transformer 架构，首先对问题的自然语言描述进行编码，然后将生成的向量解码成解决方案所需的代码。
AlphaCode 概览。图源：https://arxiv.org/pdf/2203.07814.pdf