看着论文里引人垂涎的结果,却无论如何也复现不出其中的算法,这样的痛苦,在当今人工智能研究界越来越普遍了。
2016年,《自然》面向1500名科学家发起了调查,发现在他们尝试复现其他科学家发表在学术期刊上的实验时,失败率高达70%,就算是自己的实验,也有一半复现不出来。
于是,有几位科学家想改变这种现状,将AI研究拉回正途。
△ Joelle Pineau
随着上周ICLR 2018投稿论文列表的放出,他们做的努力也渐渐引起了关注。这几位科学家是麦吉尔大学副教授、Facebook蒙特利尔AI研究所主任Joelle Pineau、麦吉尔大学研究助理Genevieve Fried、蒙特利尔大学MILA博士生Rosemary Nan Ke、以及Google Brain研究员Hugo Larochelle。
他们为了打击无法复现的AI研究,组织了一项竞赛:ICLR 2018 Reproducibility Challenge。在这项“复现赛”中,参赛者需要试着复现ICLR 2018收到的论文,并评价论文的可复现性、以及参赛者的发现是否能支撑论文的结论。
ICLR 2018明年4月才开,不过,会议接收到的论文1003篇论文已经全部匿名公开,都成了这项比赛的赛题。
“如果你做科学研究,每一种科学研究在完成上,都有自己的流程。如果你构建的系统别人都做不出来,那么你所做的,是科学性的手艺,能为我们带来知识和理解上的进步,但是和科学结果有着不一样的结果。”比赛的协调者Pineau这样强调可复现性在科学研究中的地位。
目前AI研究的可复现性也的确不容乐观。
人工智能顶会ICML 2017发表的一项研究分析了30篇AI论文,发现大部分作者对于如何训练、如何校正他们的算法,都隐瞒了关键点。因此,重现他们的结果就非常难了。
论文的作者之一,英国基尔大学博士生Babatunde Olorisade说,大型科技公司在研究中所用的专属数据和信息,在论文中并没有明确体现,这就妨碍了整个领域的进步。
这次比赛涉及的论文中,就有不少出自最好的大学,也有不少出自Google、DeepMind、Facebook、微软、亚马逊等科技巨头。这回,它们将会受到学生们的严密审查。
复现赛没有丰厚的奖金,不过,参与者可能依然会非常多,主办方号召2017年秋季学期的机器学习研究生课程,能够将复现赛的赛题作为课程的期末项目。
Pineau在麦吉尔大学主讲的两门课程,就都参与到了这项竞赛中来。全球各地的教授们也纷纷响应,加拿大的拉瓦尔大学、滑铁卢大学、美国的密歇根大学、加州大学Irvine分校、以色列的特拉维夫大学,法国的ENS Cachan都参与了进来。这份名单还在不断地增加着。
让研究生尽可能地参与到复现赛之中来,为的是给AI行业带来良性循环:学生在竞赛中学会对研究进行审查,然后在他们自己的学术界或工业界生涯中,也保持对可复现性的关注。
Olorisade非常认同复现学术研究的价值:“可验证的知识是科学的基础,它事关理解。如果你证实了那些科学发现,就能对于它有更好的认识,如果这项发现是正确、可靠的,你就知道该从哪里去研究它的分支。”
Pineau希望这样的复现赛能年复一年地办下去。
她甚至希望“开放源代码”也成为发表AI研究结果的必选项。“我希望作者们对自己所声称的结果更加小心,”Pineau说,“我希望一些作者能够更多地思考如何开放自己的代码,将源代码的公开发表也作为科学流程的一部分。”
要了解文中提到的复现赛详情,看这里:
http://www.cs.mcgill.ca/~jpineau/ICLR2018-ReproducibilityChallenge.html
《自然》对1500名科学家的调查:
http://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970?WT.mc_id=FBK_NatureNews
ICML 2017论文Reproducibility in Machine Learning-Based Studies:
An Example of Text Mining:
https://openreview.net/pdf?id=By4l2PbQ-
QZ报道:
https://qz.com/1118671/the-titans-of-ai-are-getting-their-work-double-checked-by-students/
— 完 —