论文自动转代码!IBM印度大三实习生搞了个神奇研究(已中AAAI)

简介:
本文来自AI新媒体量子位(QbitAI)

深度学习的论文越来越多了~

多到什么程度?Google scholar的数据显示,2016年以来,人工智能领域新增的论文已经超过3.5万篇。arXiv上,AI相关的论文每天都不下百篇。

刚刚结束不久的计算机视觉会议ICCV上,发表了621篇论文;2018年的ICLR,有1004篇论文正在匿名开放评审;NIPS 2017共收到3240篇论文投稿。

研究成果极大丰富了,但离应用到产品中,还差一大步:把论文转化成代码。毕竟,作者顺便提供源码的是少数。

怎么办?

IBM印度研究院最近公布了一项新研究:DLPaper2Code,顾名思义,这个程序能够用深度学习技术,将论文转化成代码。

0194888b495e4082d99b2f090b98cbc5425147e7

 论文转代码的过程

这么神奇?!该不是看到一篇假研究?

坦白讲,相关论文DLPaper2Code: Auto-generation of Code from Deep Learning Research Papers已经被AAAI 2018接收为会议论文。

AAAI是人工智能顶会之一,明年就是第32届了,2月2-7日在美国路易斯安那州的新奥尔良召开。百度、京东是大会的黄金赞助商。

cd33ade2be895c369c2e16d97ecf33d4787e4264

深度学习论文自动转代码

这篇论文中指出,由于大部分深度学习论文都会用流程图来表示神经网络模型的设计模式,因此,在论文转换成代码的过程中,DLPaper2Code首先提取、理解论文中描述的深度学习设计流程图和表格,将它们转化成抽象的计算图。

然后,它会把抽取的计算图转换成Keras和Caffe框架下的可执行源代码。

IBM的这项研究,总共生成了5000篇arXiv深度学习论文的Caffe和Keras代码,还创建了一个网站,供同行们众包编辑这些代码。不过,这个网站的地址还没有公布,目前只能看到截图:

2a030c746e345b690215b55880a167f7b7d31edd

在提取流程图的过程中,IBM的研究员们遇到了一些障碍:他们需要让程序提取论文中所有图表之后,再进行一次分类,找出包含深度学习模型设计的那些,去掉那些和模型相关性不大的描述性图片和展示结果的表格。

但是,论文中介绍深度学习模型设计的图千奇百怪,表格的结构也各不相同。

怎样让程序自动找出有用的图表呢?IBM研究员们人肉处理了论文中的3万张图,将深度学习模型设计图分成了5大类:

f65b2d78e134a30b3dacc02d7dfb7f7e9e0d877f

 5大类深度学习模型设计图

1. 神经元分布图;

2. 2D Box:将每个隐藏层表示为一个2D方块;

3. Stacked2D Box:将神经网络每一层表示为堆叠的2D方块,表示层的深度;

4. 3D Box:将每个隐藏层表示为一个3D立方体结构;

5. 表示整个流程的Pipeline plot。

而表格,主要包括横排表示模型设计流程和纵列表示模型设计流程两类。

在此基础上,他们构建了一个细粒度的分类器,来把图表分到上面提到的5类图2类表之中,然后就可以使用OCR等工具将图表中的内容提取出来。

cd95c04a37965fcd847767865e267b9028e31512

 从图中提取内容的过程

图表内容提取出来之后,就可以根据这些信息构建计算图并生成源代码了。

e000b6c4a2a507348c67a1108ea6a463840bd150

 池化2D层对应的计算图、Caffe(Protobuf)和Keras(Python)代码

自动生成的代码究竟怎么样呢?

为了对DLPaper2Code进行评估,IBM研究员们创建了一个包含21.6万份设计可视化图的模拟数据集,在这些数据集上的实验显示,上面讲的模型,在流程图内容提取上准确率可达93%。

AI自动化畅想曲

上面这个研究。来自IBM印度研究院。

共有五位署名作者:Akshay Sethi、Anush Sankaran、Naveen Panwar、Shreya Khare、Senthil Mani。其中第一作者Akshay Sethi,明年才会本科毕业。目前是IBM印度研究院的实习生。

嗯,实习生又开挂了。中外概莫能外~

但这么一篇清新脱俗的研究,真能在实践中应用么?

在reddit上,不少人还是对这篇论文有点心生疑虑。比方有人觉得这个论文很有意思,但是细细读下来,还是有些地方比较奇怪。但也有人觉得虽然标题有点唬人,但这项研究感觉还是不错。当然也有人直言:浪费时间。

更多的结论还有待时间考验,但归根结底,这些都是AI自动化方向的一种探索。让AI自己搞定AI,让软件自己编写软件,一直都是研究人员追逐的目标。

比方今年5月,Google发布了AutoML。对,就是跟今天正式推出的TensorFlow Lite同天发布的AutoML。

AutoML就是要让神经网络去设计神经网络。谷歌希望能借AutoML来促进深度学习开发者规模的扩张,让设计神经网络的人,从供不应求的PhD,变成成千上万的普通工程师。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

也是在今年,MIT学者开发出一套系统,能够自动给代码打补丁。

听起来,以后码农越来越好干了呢。其实不是。

要知道,微软和剑桥联合开发了一个系统:DeepCoder。就能够通过搜索一系列代码建立一个完整的程序,可达到编程比赛的水平。而且,这个系统还能通过自我训练能够变得更聪明。未来程序员的饭碗也不是很铁了。

还记得量子位昨天发的那篇报道么?《深度学习蚕食软件,十年内大部分软件工作不再涉及编程》。

前端也别笑。有家公司正在开发和完善一套“pix2code”的深度学习系统。正这个系统能够根据输入的图形用户界面(GUI)截图直接输出对应的代码,从而省去前端手动编写代码的过程。不信?传送门在此

640?wx_fmt=png&wxfrom=5&wx_lazy=1

嗯,一个新时代真的来了。

论文获取

f97f99e87f4a408d1aec3b807462dd73fd3937a8

想要下载这篇论文,可以在量子位微信公众号(ID:QbitAI)后台对话界面,回复:“p2c”三个字符即可。

本文作者:李林 岳排槐
原文发布时间:2017-11-15 
相关文章
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
本科毕业加入谷歌,还写了「思维链」开山之作,这位OpenAI新秀正为本科生答疑解惑
本科毕业加入谷歌,还写了「思维链」开山之作,这位OpenAI新秀正为本科生答疑解惑
|
9月前
|
机器学习/深度学习 人工智能 安全
学术休假一年,量子计算大牛、ACM计算奖得主Scott Aaronson加盟OpenAI
学术休假一年,量子计算大牛、ACM计算奖得主Scott Aaronson加盟OpenAI
|
9月前
|
人工智能 算法 量子技术
姚班本科生摘最佳学生论文奖,计算机理论顶会STOC2022奖项公布
姚班本科生摘最佳学生论文奖,计算机理论顶会STOC2022奖项公布
|
9月前
|
机器学习/深度学习 算法
搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述
搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述
|
机器学习/深度学习 人工智能 资源调度
接管创新项目未果,转身就质疑研究造假?谷歌这篇登上《Nature》杂志的研究引发大讨论
谷歌员工声称,今年早些时候某高级研究员曾给另两名初级 AI 研究员“挖坑”——暗示二人研究成果有错,甚至存在伪造行为。
117 0
|
人工智能 自动驾驶 数据安全/隐私保护
观点|来自UCL实验室大佬的学术生涯避雷指南
  Stephen Fleming 在牛津大学读取心理学与生理学硕士之后,又在伦敦大学学院获得了认识神经心理学的博士学位。硕博时期获得了多个奖项和名誉的 Stephen Fleming 决定继续从事学术研究,在伦敦大学学院创立了元认知实验室,领导人类意识、元认知、决策方面的研究。   回顾实验室建立近三年来的种种,Stephen Fleming 感慨良多。他把自己的感受、反思以及对后来者的建议写成了博客,AI科技评论对博客内容编译如下。
91 0
|
机器学习/深度学习 人工智能 自然语言处理
IJCAI 2021开幕:程序主席周志华揭晓热门研究主题,杰出论文等奖项出炉
从AI学术顶会IJCAI统计的这些数据中,洞见热门研究趋势。
178 0
IJCAI 2021开幕:程序主席周志华揭晓热门研究主题,杰出论文等奖项出炉
|
机器学习/深度学习 人工智能 缓存
历数近22年计算机科学顶会最佳论文:微软领先,清华国内第一
研究人员可能会觉得,如果有一份统计近年来所有 CS 顶会最佳论文的网站就好了。事实上,确实有这样一个网站:来自布朗大学计算机科学助理教授 Jeff Huang 统计了自 1996 年以来,计算机科学领域里所有重要会议的最佳论文。
248 0
历数近22年计算机科学顶会最佳论文:微软领先,清华国内第一
|
机器学习/深度学习 人工智能 自然语言处理
在大家热议Vicarious AI那篇Science论文时,我们和这家公司的CTO聊了聊(回应LeCun批判)
上周,Vicarious AI 发表在 Science 上的一篇论文引发了业内热议,有褒有贬,甚至有媒体挖出了 Yann LeCun 2013 年对 Vicarious AI 的批判。在论文发布后,机器之心对 Vicarious AI 的 CTO Dileep George 进行了专访,谈到了概率生成模型、Yann LeCun 的批判等话题。
126 0
在大家热议Vicarious AI那篇Science论文时,我们和这家公司的CTO聊了聊(回应LeCun批判)
|
机器学习/深度学习 人工智能 自动驾驶
IJCV 亚洲之夜,机器之心与CV领域顶级期刊首位华人主编汤晓鸥聊了聊
CVPR(计算机视觉与模式识别会议)是计算机视觉领域的三大顶级会议之一,它的举办让七月的火奴鲁鲁更加热情似火。
812 0
IJCV 亚洲之夜,机器之心与CV领域顶级期刊首位华人主编汤晓鸥聊了聊