代码补全漫谈(2) - Miltos Allamanis

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: # 代码补全漫谈(2) - Miltos Allamanis 上一回我们从火到爆表的TabNine说起,介绍了OoV问题引发的论战。 在进入细节之前,我们再八卦程序语言处理领域的一个重要研究者,微软研究院的Miltos Allamanis。

代码补全漫谈(2) - Miltos Allamanis

上一回我们从火到爆表的TabNine说起,介绍了OoV问题引发的论战。
在进入细节之前,我们再八卦程序语言处理领域的一个重要研究者,微软研究院的Miltos Allamanis。Allamanis的博士论文就是以《Learning Natural Coding Conventions》为题,是这个领域的专业研究人员。

上次我们介绍的重要survey文章《A Survey of Machine Learning for Big Code and Naturalness》的第一作者就是Allamanis.

从Allamanis第一作者文章看代码处理发展史

下面我们就顺着Allamanis的论文为线索,对于代码处理这一分支有个更有体感的概念。

Mining Source Code Repositories at Massive Scale Using Language Modeling(2013)

这一篇发表于2013年,那时Allamanis在爱丁堡大学师从C. Sutton教授做研究。
2012年,上文提到的加州大学戴维斯分校的Devanbu老师和其学生Hindle等人一起发表了《On the naturalness of software》,通过自然性的证明说明用NLP的方法研究代码是有效的。随后,Allamanis通过3.72亿行的github上的Java工程来构建概率语言模型。

Mining Source Code Repositories at Massive Scale Using Language Modeling

Mining Idioms from Source Code(2014)

2014年,Allamanis的兴趣点是挖掘代码片段,就像code snippets一样,采用的方法是非参数贝叶斯概率树。树的结构如下图所示:

Mining Idioms from Source Code

Learning Natural Coding Conventions(2014)

在code review中,命名规则不统一也是一个重要的审查项。Allamanis提出学习命名风格,然后给变量名等提供建议的方式来帮助程序员写的代码的命名风格的统一。

allamanis2014learning.png

Suggesting Accurate Method and Class Names(2015)

上一篇文章解决了变量命名推荐的问题,于是再接再厉,通过上下文信息给出方法名和类名的推荐。

Suggesting Accurate Method and Class Names

A Bimodal Modelling of Source Code and Natural Language(2015)

这篇文章开始将源代码和自然语言共同用来建模。

A Bimodal Modelling of Source Code and Natural Language

A Convolutional Attention Network for Extreme Summarization of Source Code(2016)

这篇文章开始结合了Attention技术与卷积网络去试图为源代码提取特征。
CNN加上Attention提取特征的示意图如下所示:

A Convolutional Attention Network for Extreme Summarization of Source Code

本文有基于theano框架写的代码:https://github.com/mast-group/convolutional-attention

SmartPaste: Learning to Adapt Source Code(2017)

SmartPaste是个很有创意的功能,在之前对于变量等推荐的基础上,现在智能粘贴功能可以自动识别所在的上下文了。我们看一个例子:

SmartPaste

Learning Continuous Semantic Representations of Symbolic Expressions(2017)

程序语言另人纠结的一点就是本来可以用精确的语法树等方向进行推理,但是无法和神经网络很好的结合。本文就是尝试用神经网络与程序语言结合的一种尝试,一种等价网络。如下图所示:

Learning Continuous Semantic Representations of Symbolic Expressions

Mining Semantic Loop Idioms from Big Code(2018)

在这篇中,Allamanis继续他的惯用法的研究,将API和数据结构等信息组合起来,识别出了大量的模式惯用法。

Mining Semantic Loop Idioms from Big Code

Learning to Represent Programs with Graphs(2018)

本文引入了图神经网络来处理源代码,以解决CNN, RNN等传统神经网络处理源代码的不足。此时,Allamanis已经到微软研究院工作了,这篇文章的代码已经发布在微软的github上了:https://github.com/Microsoft/gated-graph-neural-network-samples

The Adverse Effects of Code Duplication in Machine Learning Models of Code(2019)

今年的这篇文章,作者开始关注代码库中的大量重复给神经网络训练带来的挑战。源代码不同于自然语言,在开源代码库中有大量的复制的代码,而这在自然语言中是非常少见的。

The Adverse Effects of Code Duplication in Machine Learning Models of Code

其它研究

下面我们再看一下非第一作者的一些研究。

Deep Learning Type Inference(2018)

这篇文是后面章节的主角之一,是通过训练ts转js对js类型进行训练的方法。类型信息对于代码补全意义重大,相关研究我们在后面会详细介绍。
最终生成的结果如下图所示,

类型提示

CODIT: Code Editing with Tree-Based Neural Machine Translation(2019)

这篇文章的主要目的是对于日常提交如bug fix进行推荐。代码本来就是树型结构的,通过树型机器翻译模型,可能更贴近于源代码的结构表示。

CODIT

Learning to Represent Edits(2019)

这个可以认为是smart paste功能的升级版,类似于office软件中的格式刷,将新写的代码刷成学习到的模式。我们看个例子:
Learning to Represent Edits

A Neural Approach to Decompiled Identifier Renaming

这篇文章试图通过学习代码库来进行反编译时的名字信息的推测。原理和例子如下图所示:

A Neural Approach to Decompiled Identifier Renaming

Program Synthesis and Semantic Parsing with Learned Code Idioms(2019)

这一篇是将程序代码与自然语言协同的新尝试。

Program Synthesis and Semantic Parsing with Learned Code Idioms

RefiNym: Using Names to Refine Types(2018)

这一篇可以说是OOP的辅助工具吧,用于识别类的设计是否合理,是不是设计了过多的类,或者将不相关的域放到同一个类中了。
RefiNym

总结

从Allamanis的经历来看,还是非常扎实的,稳扎稳打,从建立数据集和概率语言模型开始,一点点向自然语言和程序语言相结合的方向不断前进。其中像smart paste等功能让人眼前一亮,可以成为IDE的爽点功能。

目录
相关文章
|
5月前
|
人工智能 自然语言处理 JavaScript
CodeGeeX的开发者是谁?
【8月更文挑战第30天】CodeGeeX的开发者是谁?
101 9
|
3月前
|
自然语言处理 JavaScript 开发者
通义灵码插件:VSCode 的智能编程助手
通义灵码插件:VSCode 的智能编程助手
818 3
|
4月前
|
人工智能 API Python
ChatGPT 插件开发
本教程旨在帮助您掌握ChatGPT API的基本使用方法,包括应用开发、代码分析、插件开发及专属领域模型应用等。通过学习,您将为未来的人工智能应用开发打下坚实基础。教程包含官方文档介绍、环境搭建步骤及Python示例代码,助您快速上手。请注意,API调用需收费,初始提供5美元免费额度。
|
5月前
|
自然语言处理 IDE 测试技术
CodeGeeX用法
【8月更文挑战第30天】CodeGeeX用法
316 6
|
5月前
|
自然语言处理 NoSQL 关系型数据库
CodeGeeX支持哪些语言?
【8月更文挑战第29天】CodeGeeX支持哪些语言?
85 4
|
8月前
|
人工智能 程序员 开发者
Copilot有什么用?
【2月更文挑战第6天】Copilot有什么用?
344 3
Copilot有什么用?
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
什么是Copilot?
【2月更文挑战第5天】什么是Copilot?
390 2
什么是Copilot?
|
8月前
|
算法 安全 开发者
Copilot使用技巧
Copilot使用技巧
189 1
Copilot使用技巧
|
前端开发 Java Maven
copilot
copilot
88 0
|
算法 测试技术 C++
代码生成 中文大语言模型
目前的中文大语言模型的能力,差的还有很多。希望这个平台能够帮助用户更好地认识和利用这些模型,同时也期待更多的用户参与进来,共同推动中文大语言模型的发展和进步。
402 1