两年前,知乎作者「谢熊猫君」将「waitbutwhy」上的 The AI Revolution 译为中文。他巧妙引入「吓尿指数」,人工智能也被披上了「玄学」外衣。
半年前,AlphaGo 对阵李世乭。这场「人机大战」让「人工智能」这一并不新鲜的名词,第一次获得了大规模的主流关注。
兴奋、怀疑与惶恐,比挑战人类智力「试金石」更让人不知所措的,是站在改变「临界点」上的迷茫。
「比赛期间有一张让人印象深刻的照片。照片中一边是需要千台机器的 AlphaGo,另一边是李世乭和一杯咖啡。大自然的鬼斧神工一直让人肃然起敬,而这其中最杰出的造物,莫过于我们人类自己。」
说出这句话的人是田渊栋。在 AlphaGo 和李世乭人机大战正酣之时,这位人工智能领域杰出的华人专家因其主导开发了 Facebook 的人工智能围棋研究项目 DarkForest 以及在知乎上独到而专业的比赛点评,迅速为大众所熟知。
卡耐基梅隆大学机器人系博士、前谷歌无人驾驶汽车项目组研究员、现 Facebook 人工智能组研究员,多重身份的加持和前沿、专业的研究为田渊栋吸引了相当多的目光。
「我们要做的,不是成为高谈阔论的事前事后评论人,而是去当那一两个先行者。他们才是明白事实真相,才是真正改变历史轨迹的人。」
除了前沿研究与技术创新,他还保持了长期的写作习惯。除了早期的个人博客和现今的知乎专栏,田渊栋甚至还完成过一部超过 30 万字的小说,这在以理工科为代表的前沿科技领域是极为罕见的。
近期,机器之心对田渊栋进行了一次独家专访。关于人工智能、个人经历以及前沿技术研究的进展,田博士分享了诸多鲜为人知的故事和观点。
本文目录:
- 写小说的人工智能科学家
- 从交大人工智能论坛版主到微软研究院
- 人工智能不该被过度炒作
- 沟通和交流能力是研究的重要组成部分
- 从 Google 到 Facebook 的身份转变
- 关于未来人工智能行业的一些思考
- 关于国内人工智能的发展
- 田渊栋的学习方法论
一、写小说的人工智能科学家
机器之心:我们注意到您非常喜欢写作,以前也写过小说,这是您的业余爱好吗?
田渊栋:对,这个也算是我在硕士和博士期间的一个爱好,主要的成就是写过一部大概 30 万字的长篇小说,还有一些中篇和短篇。当然,长篇小说毕竟读得人不多,后来就改成写博客,大家还是愿意看的。
机器之心:那您对文字的爱好,是因为受家庭影响吗?还是您从小就有偏向文科?
田渊栋:我以前受到高中班主任的影响,对历史有兴趣,愿意看些东西,当然写作还是高考作文这种水平。大概 06、07 年的时候,网络小说开始流行,和大家一样我也喜欢看。看多了,我这个人就喜欢动手,自己写写试试。一开始写的时候真的不好写,挤不出几个字来,写的是全是大段对话。但是慢慢就知道怎么写了,时间长了,越写越顺。
机器之心:都是科技题材的内容吗?
田渊栋:都有,玄幻加科技,就是大杂烩嘛。我不是商业写作,所以主角不打怪升级。主要是掺杂了一些个人经历,把自己想写的人物和事情写出来,小说嘛,题材其实无所谓,发生在火星上还是地球上都一样,但人物很重要,是灵魂。这部长篇小说写了五年,一开始是零零散散的写,然后串起来,最后集中精力花三个礼拜把它全部写完,现在回想起来,那段时间太有意思了。
机器之心:您这个领域跨度太大了。
田渊栋:没有,这个也就是业余兴趣,现在比较忙,以写博文和杂文为主。写小说这个经历对我的锻炼很大,一方面在写人物的时候,要站在人物角度见他所见想他所想,要让人物活起来,这个对于习惯从自我出发的人来说是很好的历练;另一方面语感有很大提高,有了之前的积累,现在写杂文和博文,自然而然会觉得这个地方这么写,会让读者看得顺眼。
机器之心:那您现在的状态是以论文为主吗?
田渊栋:是的,学生时代相对来说空闲一点,也是积累和摸索阶段。现在是当打之年,当然是以论文为主,人生的好时光没有多少的。
二、从交大人工智能论坛版主到微软研究院
机器之心:您提到过您对数理化全有兴趣,最后转到计算机。那您在本科的时候读什么专业呢?
田渊栋:我是计算机专业的。当时我进了交大的联读班,一开始不分专业上基础课,比如说数学物理化学课,还有通信的相关课程,到两年之后再选专业。现在我相信很多学校也开始做这方面的尝试了。比如说第一年不选专业,让你自己去选什么科。我觉得这样对于一个人的发展来说,特别是对学术有喜爱的人来说,是比较好的。
机器之心:您当年本科读完了,就到美国去读博士了?
田渊栋:我当时在交大读了研究生,然后再出国。那个时候我基本上花了一半时间在微软亚洲研究院。
机器之心:那个时候已经在做了?
田渊栋:对,在做这方面的。一开始是做人脸嘛,然后做一些比较广泛的图像识别,图像课程的一些问题,然后就申请了美国的博士。
机器之心:这个方向当时是您在交大的导师帮您选的,还是研究院的,还是您自己的兴趣?
田渊栋:我觉得我真的要感谢我在交大的导师张丽清教授,他给了我自由的发展空间。我说我要去微软亚研院实习半年,一般老师不会同意的。他说:「没关系,去吧」,非常支持。我在交大时做计算机视觉,研究院那边也是做图像识别的,具体来说是人脸识别。当时我想着能去研究院很好了,非常向往,做什么方向也无所谓。
机器之心:那个时候机器学习有重视,但是没有现在这么热,是吧?
田渊栋:对,那个时候是这样的,学术归学术,系统归系统,两边分开。机器学习的能力已经开始体现出来了,比如说在特定问题如人脸检测上有很好的解决方案;但是更复杂的物体检测则远远不及人的能力,大家都在讨论什么才是好的视觉表示。那一波其实持续了很长时间,从 01 年开始一直持续到大概 07-08 年。那时我觉得机器学习有用,但没有像现在这样有广泛的应用。那时基本上是人工设计特征,再让计算机跑个线性模型就完事了。特征还是要人自己去找。现在就完全不一样了,因为数据量大了,又有深度学习的框架,可以让计算机自己去学到好的特征,效果也好。
除了去亚研院之外,硕士阶段我主要在数学上打下了基础。我当上了交大 BBS 数学版版主,经常去回答板上提出的各种问题,不能回答的话就会去查资料。作为版主,回答不了问题是会有很遗憾的感觉的,这样就产生一种压力,通过这种方式,我强迫自己不断地学习。时间长了之后就慢慢习惯。另一方面我还开讨论班,我说我主动来讲机器学习和模式识别的一些数学模型,这样大家来听,我就得要准备,准备多了,基础就扎实了。研究生阶段还选了一些其它系的课,比如说广义相对论还有随机过程,一般人不会这么做,但我有兴趣。这样基础就打下了,以后看别的文献就会方便一点。
机器之心:听上去,好像您在学生时代的时候,就已经应该是交大学生团体里面的机器学习,人工智能的一个先锋人物了。
田渊栋:可以算吧。我那时还是人工智能版的版主。版上那时有很多非常有趣的讨论。当然那时候的讨论,现在看起来可能比较幼稚。不过既然是出于兴趣,也不怕人笑话。
机器之心:那个时候您比较确定自己会读这个方向,是吧?
田渊栋:至少确定将来会做人工智能这一块吧。有兴趣的原因是,我觉得很多问题没有解决。当时我在版里说,人工智能感觉上就像化学史上「燃素说」和「氧化说」争鸣时的状态,还没有系统性的理解,还在黎明前夜。大家现在都在那边低头调参数加特征,只知其然却不知所以然。将来肯定有很多理论框架,但是哪个是对的,现在毫无头绪。
这个就是机会。现在回过头来看,我想的是对的。
三、人工智能不该被过度炒作
机器之心:那您觉得人工智能现在的状态呢?
田渊栋:还是那样,还是比较浅层的。当然我们现在有机器也有数据,效果肯定比以前好很多。但是理论这一块,现在还没有太大的突破。
机器之心:所以您专门写文章呼吁不要对人工智能过度炒作,目前理论上的挑战还是非常的艰巨。
田渊栋:对,还是有很多问题。当然了,还存在一种可能,现在机器多了数据多了,不用管理论,一路做应用做到底。在理论还没有掌握之前,应用已经超过人的水平,都是有可能的。
机器之心:那对围棋的研究,你还会继续下去吗?
田渊栋:这块我们还会再做一点,但是现在主要是开一些其他的方向。
机器之心:那你现在最主要的兴趣是在视觉和在语言处理这方面的这个方向吗?
田渊栋:这些方向都会有涉及。但现在时代不同了,不应该把自己限制在视觉或者某个特定方向。
机器之心:不是一个专门的应用。
田渊栋:对,因为感觉上自然语言处理、图像、语音,这些基本上都是应用了。所以说如果必要的话,其实可以在这个中间进行切换,或者做一些交叉的方向。以前做这三个方向,可能需要大量的领域知识,特别是做自然语言处理,要学以前语言学的文献。要做分词,比如说每个词给一些词性。要做一些语法的分析、语素的分析,有很多很多的步骤。但现在的趋势是从头到尾都让机器学。
机器之心:就是他们说的 end-to-end。
田渊栋:是的,end-to-end 端对端的学习。比如说自然语言这一块,并没有比以前的效果好太多,但整个流程变得很简单方便,将来进步的速度可能就会变快。比如机器翻译里面,你把一个句子,直接通过神经网络翻译成另外一个语言的句子,这样就比以前快。以前可能要分词呀,词性标注呀,对每个词找到另外一个语言对应的词或者词组,找到之后再重新排列一下,最后才产生一个句子。要通过几个步骤,但是现在在概念上,只要一步就算出来。【注:现在基于神经网络的翻译系统确实比以前好很多了 】。
为什么会出现端对端呢?我觉得主要是因为神经网络这个模型的优点。神经网络模型是个非常灵活可扩充的模型,随便连一下,然后做后向传递就可以了。大家一开始没有意识到它的厉害,觉得做这个系统得要分几步吧,神经网络只是其中一步,前面和后面还是通过传统方式来做比较安全。后来大家就慢慢意识到,为什么不用神经网络把整个系统打通?那样的话,又省时效果也会更好。自然而然,大家都会思考端对端的思路。我觉得现在基本上端对端的效果,主要体现在整个迭代的速度上,从设计模型到训练,到看到结果,到修改模型这样一个循环的速度会很快,效果也通常会变得更好。人优化参数的时候,可能半小时优化一次,看看结果如何;机器优化参数,可能一秒就优化几百次。所以这个时间的改进是数量级上的改进。
数据集的获得,现在主要是在网上花钱,人工标注。比如说一张图几块钱的,然后让人去做。就发动群众的力量嘛,看大家有没有空。有空闲着无聊了,就标注两张。这样把力量汇集起来。
机器之心:像您在 Facebook 做的,Facebook 有那么多的图片,然后底下还会有人可能对这个 pictures 做一个评论。
田渊栋:对。
机器之心:那这种东西,你们把它拿来用吗?
田渊栋:这个是有用的,但是具体怎么用,我们现在还在商讨中。
机器之心:因为它没有那么准确?
田渊栋:是的。而且大量的图片,下面的评论可能是杂的、乱的。比如说我们所有的话,下面都可以写一个赞呀。这个评论,其实跟这张图没有关系。
机器之心:需要比如说去噪音这种方式去解决。
田渊栋:对,可能有多少话,一开始说得跟图片有关。但是后面说两句,说到某个人身上,扯远了,离题了,这句话就跟这张图没有关系了,所以这个其实都很难,现在还没有办法做,还需要好好研究。
机器之心:我记得前一阵华为他们那边做了一个小对话的系统,然后进行了简单的归纳。它用的数据其实在微博上取下来的,但是它那个数据像您说的也很乱,它会有一些规则。比如说第多少条回复以后,肯定就绕得不知道哪儿去了,肯定不能要了,还有常见的一些感叹的词语。
田渊栋:对,肯定不一样。相对来说,你可能需要把剩下的句子提关键词。然后把关键词作为这个图的标注,这是一种方法。或者做一些简单的语音分析。
机器之心:它还有一点,田博士您看到一张图,我们人可以标注它。但是实际上这张图有好多种标注方式而且都是准确的,因为看的角度不同。
田渊栋:对。
机器之心:那在这种标注数据拿给你的时候,一个图会给你多少种标注呢?
田渊栋:这个其实不同领域,有不同的方法。比如说问答系统,可能有一个问题有一个回答。问题不同,回答又不同。所以一张图里面有三个问题,那么就有三个回答。或者一张图有三个问题,有三十个回答。每十个回答对应于一个问题,这是可以的。然后你有这些数据之后,你想办法找到一个比较好的模型去归纳这些数据,这是一种。
比如说还有一些,一张图有几千个标注。一张图里面你可以标注很多属性,里面有猫,有人,有天空,有大地,可能是外景,或者可能是晚上。像这种,每张图上有很多属性,这种也可以拿来的。这种不同的标注方法,目标是不一样的。比如说你做问答系统的话,问题和回答必须成对出现的。
因为这个回答非常依赖问题,如果你没看见图,只看到问题。然后回答的话,其实正确率挺高的,因为可以猜出来。所以你就会发现在不同的情况下,需要的标注是不一样的。
机器之心:这种数据上的处理,不仅需要强有力的技术,还需要更多的思考。
田渊栋:对,所以这一块的思考需要很大很大的力气。有可能一个数据做得不好的话,它的标注出了问题,或者它的采集过程出了问题,就不能用了。现在有很多机构都在做数据集,想办法通过数据来取得进步。做完数据处理之后,大家都会有一个客观的标准来评判他的算法怎么样。然后在数据上提高自己的算法性能,从而达成整个领域的提升。通过衡量数据上的表现,来衡量整个领域的进展。
机器之心:那这个趋势看来也是一种需要了,在学术圈,包括像公司这样的级别,尽量去制造好的学习数据,可能会在深度学习这一块取得极大的突破。
田渊栋:这是一个方面,另外一个方面在算法这一块,我们希望深度学习用更少的数据达到相同的效果。这两方面都在做的。
机器之心:小数据这件事,大家很关注。你觉得现在有什么突破口,或者什么思考方法?
田渊栋:现在主要做的是:你先在大数据上,训练一个模型。然后在小数据集上做微调。这样的话,你所要学习的权值数目就变少了。如果这两个问题本身也有相关性,这样就比较容易。或者你把少部分具有足够的健壮性的数据,加上大量的弱标注的数据放在一起训练,这样也是可以的。或者把小数据通过增广变成大数据,比如说旋转缩放图像,里面的物体属性标注保持不变。这样的话,数据增加了对模型的训练过程会有好处。
当然,这些都是权宜之计。真正要解决这个问题的话,需要对深度学习的机制要有很明白清晰的了解。这个很难,还没有办法做出来,大家还在做。之前我去清华做演讲的时候,跟姚教授也在聊,他也觉得这是非常难的问题。
机器之心:他们现在也在关注?
田渊栋:对,他们现在也关注这个。神经网络的训练是一个非凸的优化问题,目前传统的方法没有办法解决它。没有对它的本质理解,可能没有办法真正解决神经网络训练过程中的疑难杂症。
机器之心:说到这个,有一个大家都在讨论的问题,就是神经网络它的高效性,有一点像黑箱子,里面真正的数学原理大家还不是很清楚。
田渊栋:对。
机器之心:那您对这方面的研究感兴趣吗?
田渊栋:这方面跟我的博士论文是很有关系的。虽然说大家可能因为围棋的工作认识了我,但是我在博士阶段是做理论的,研究如何获得非凸问题的最优解。一般情况下这个问题做不了,但在某些特定情况下是有可能的。我当时做的是如何对齐两张扭曲的图像。对齐是非凸的,局部最小值的分布和图像内容有关,图像里有重复结构,比如说一栋建筑物里有很多窗,那么就对应非常多的局部最小值。那么这个怎么办呢?一种方法是说我们干脆不优化了,就直接把图像用各种已知的扭曲参数生成出来,存到数据库里。然后新的扭曲图像拿进来之后,我就查那个数据库,就可以得到我想要知道的参数。但是这个办法的缺点是需要要非常多的数据,才能够保证得到的参数是准确的。另外一个方法就是传统优化算法,不管它是不是非凸的,我们用梯度下降迭代,但这样可能会陷入局部最小值。我发现了一个折中的方案,结合迭代算法和数据,做一个数据驱动的迭代算法,这种情况下,可以证明用更少的样本达到全局最优解。其中原因就是这个特定的非凸问题有一些特殊的群结构。这就是我博士毕业论文的主要工作。
我当然希望在深度学习上也能看到一些特殊结构,从而揭示它的秘密。但这个仍在探索中。
四、沟通和交流能力是研究的重要组成部分
机器之心:您的导师对您的影响好像很大,特别是在写作方面。
田渊栋:他的写作和演讲的技巧是很好的。我觉得他对我在博士期间的成长是非常有帮助的。
机器之心:就是他的沟通、交流能力好像很强。
田渊栋:对,他是印度人嘛,大家都知道印度人这方面的能力比较强,他就是这样的。其实我之前是比较内向的,可能大家都有这种刻板印象,认为中国好学生比较安静一点,不愿意说话,比较内向。但是你出国了之后,你会觉得这两个属性不是连在一起的。你可以成为一个好学生,然后你也可以愿意和别人聊天。这些都可以做到的,都可以培养的。比如说一开始上台演讲的时候,有一种恶性循环,上台不知道怎么说,不敢上台。你上台又不知道怎么说,又不敢上台,那你到时候就不敢上台了。一开始要打破这个恶性循环,就要准备非常丰富的,非常好的演讲。第一个演讲说好了,觉得自己有信心了之后,再往上走,就一点点变得非常非常自然了。
机器之心:对,对交流还是有很多的思考。那我个人有一个感触,不知道您是不是认同。就是中国的理科方面的学生,如果有一些追求的话,一定要对语言非常深的深钻。尤其是英语,我觉得国内好像对这个重视不太够。大家好像觉得,大家说论文的英语语言本身不是很复杂。但是我觉得真的,也提到您刚才一个话题。可能你整个思维方式的形成,不仅仅是通过读论文,可能是通过读专著呀,通过读科普的著作呀,跟其他英语的 speaker 进行交流,学术沟通呀。这里面实际上要求你非常强的语言能力,我感觉到您好像是咱们国内华裔学生里面,对这个是有足够重视的。好像有一些学者,尤其在国内没有国外留学经验的人,不知道这个东西价值有多大。
田渊栋:英语只是特定语言,我指的是表达和交流能力,这个价值是非常非常大。中国有句老话叫「酒香不怕巷子深」,其实在现代社会不完全是这样。越是好的东西,越是要说出来,一定要广播,要想办法让大家都知道,才能让别人欣赏你。每年投稿在各大杂志和会议上的文章,基本上以千为单位了,加在一起肯定要上万了。你的文章能否脱颖而出,是一个很大的问题。当然了,如果你做了一个世界上没有人做出来的问题,或者你的效果比别人好太多,那不必多言,大家都觉得你非常厉害对吧。但是很多情况下,你的工作并不能达到世界第一,也有很多工作是分析现有问题,或者表达一个新的思路或者观点,不是硬拼性能的。像这种文章就要靠说了,要靠组织和表达清楚的语言,不然的话,别人看了一头雾水不知道你说什么。
国外有好多的教授,其实这方面的功底是非常深的。比如说咱们 CMU 有个教授,一篇文章开篇引了福尔摩斯的话。福尔摩斯说:「没有数据支持的任何推理,都是不成立的。」然后他就举例说明数据的重要性。这样的文章,不一定有算法上的贡献,但是他们对别人思维的改变,其实起很大的作用,让别人觉得他这样的思路可能是对的,从而改变自己整个的研究路线。我刚去的时候不适应,觉得这种软文有什么好看的,只会用个最近邻方法,一点技术含量也没有;现在发现这不是吹牛,是对大方向的重要把握。现在深度学习来了,数据更多了,他在文章中提倡的,完全是符合潮流的。
机器之心:您现在做研究的时候思考,用英语在做吗?
田渊栋:思考并不是依赖于某种语言。英语用得多些,因为这个领域中文有很多词可能还是得翻成英语。
机器之心:甚至超越语言的一种。
田渊栋:对,图像呀,或者一种内在的东西。然后你想到了之后,通过你内部的思考表达出来。
机器之心:可能这是一种,有点像神经网络,它是跨越语言的。
田渊栋:对,拿神经网络的术语来说,它们都映射到同样一个内部表示,然后再翻译过去。
五、从 Google 到 Facebook 的身份转变
机器之心:当时田博士您在谷歌无人驾驶的项目里面做过一段时间,后来转到 Facebook。实际上在很多人眼里,谷歌已经是天堂般研究这样一个地方。您怎么会转到 Facebook?
田渊栋:我觉得主要还是因为谷歌是一个比较大的公司嘛。并不是说谷歌每个人都可以做你想做的事情。要看你在哪个组,你是什么地位,你做什么样的方向。大公司有一个问题,去得晚的话,你可能只能做螺丝钉。
机器之心:有一点排资论辈的感觉吗?
田渊栋:其实谷歌已经非常不排资论辈了,已经很开放了,但是还是会存在这样的问题。因为没有办法,无人车已经做了很多年了嘛。你进去之后,东西都做好了,只要修补就行了,你想要搞些有趣的,条件不允许。一开始觉得挺有意思的,但是时间长了,你会觉得没意思。而且还有一个问题,无人车比较保密,想要发表自己的工作就很难。
机器之心:有点受限制。
田渊栋:对,我又是一个比较喜欢写博客的人,你让我这个话不能写,那个话不能写,那怎么写呢。我之前写过一篇有关无人车的博文,不过那篇博文没有涉及到任何细节。后来还是觉得 Facebook 相对来说更公开一点,所以就跳走了。
机器之心:您觉得 Facebook 的企业文化有哪些非常值得我们国内企业学习的地方?
田渊栋:我觉得它就比较扁平嘛,小扎就坐在我后面 6、7 米的地方,6、7 米都没有,基本上我后面是一个很大的区域。就是 CEO、CTO 还有 COO 都在后面坐着嘛。去年我的实习生周博磊还被 COO 雪莉点到了,雪莉带着访问者问他在做什么工作,他回答得非常好。感觉上高层都对人工智能很感兴趣。Facebook 总的来说就是比较开放的环境,很多时候比较随意吧,没有那么严格的上下级。在 Facebook 里面,你也看不见别人的级别。相对来说人和人之间平等一点。
机器之心:那你们这个深度学习研究人员和公司的高层坐得这么近,是不是因为高层也是把你们最重视的一个。
田渊栋:有可能是吧,但是这个我也不好说。我觉得这个是公司的安排嘛,所以我不会有什么特别的评论。
机器之心:那他有没有时候会主动地过来,问问你现在在忙什么呀?
田渊栋:他还是比较忙的。每个人都有自己的职责嘛。
机器之心:LeCun 是这个领域的元老,离 Zuckerberg 比较近,就想说有没有从他身上得到一些启发。
田渊栋:LeCun 是一个非常开放的一个人。感觉我们整个组非常民主,你想做什么都可以。如果你愿意做的话,也没有人管你。
机器之心:方向上给你很大的支持。
田渊栋:就像为什么会做围棋嘛,对吧,就是很奇怪的。
机器之心:这个是你自己选的吗?
田渊栋:自己选的,围棋是自己选的,然后一开始数据集呀,整个东西都是我和实习生自己弄的,然后 DarkForest 的名字也是我自己起的。这个名字比较酷。我们组也是比较开放的,都没有管,说你这个名字一定要跟 Facebook 有关。当时也没有多少人看好这个方向,只是一个试验。
机器之心:所以你们的研究不需要直接跟公司的业务产品相关吗?
田渊栋:能有产品的话,那当然最好,但是还是以研究为主。而且这次我选围棋也证明了眼光是对的。我当时对它有兴趣,是因为看到了两篇文章,当时大家都没有引起重视,就只有圈里人知道。我看了一下觉得这个东西有点意思。
机器之心:就是你的文章可以引用的地方。
田渊栋:对,我觉得这个方向,将来会有一些突破。
机器之心:那当时你意识到他们进度会这么快吗?
田渊栋:当然没有意识到那么快,只是觉得这个方向可能有前景。当时还做了还挺多项目的,没有吊在一棵树上。做研究的风险都很高,所以你必须分几个不同的项目同时做,看哪个项目比较好。这个围棋项目它的效果是不错的,那么就花时间在上面。
机器之心:那除了给你们很多的自由度之外,你觉得他(LeCun)给你最大的帮助是什么呢?或者是收获?
田渊栋:他会有一些比较大的想法和观点分享给大家。比如说他觉得对抗式学习是一个比较重要的方向。他会经常说嘛,让大家觉得这个东西挺重要,这么做可能是有道理的。用这种方式来影响大家。不过他也没有说一定要做这个,一定要做那个,没有。他是个比较宽厚的长者,和大家聊聊。
机器之心:经常会跟你们沟通吗?
田渊栋:还比较多。
机器之心:那你们内部有各种,像研究人员之间的交流,小组这种讨论吗?
田渊栋:你想要研究,想交流很容易嘛,因为大家都坐很近。你可以发个信息过去。或者说直接到他座位上随便聊聊,大家讨论一下。这个还挺重要的,特别是你要做别的方向自己不熟悉的话。你一个做图像的人,突然去做自然语言这一块,那么你对自然语言理解这一块的文献,肯定不那么熟悉。你问别人一个想法,别人会告诉你这个东西做过了。这样的话,你可以慢慢知道这个方向,它的现状怎么样,然后接下来要怎么做,什么地方做过,有哪些地方还没有做过。通过这样的交流方式,你会很快的知道什么东西是应该做的。研究这一块,对方向的确定是很重要的。
机器之心:我看您对研究的方法论,自己非常有成熟的一个看法。
田渊栋:这个也是慢慢总结出来的,碰过钉子嘛,很多时候你都知道了。
机器之心:我们看过一篇文章,就是 LeCun 接受采访的时候,说了一个最不喜欢的对深度学习的描述,就是它像大脑一样的过程。后来记者让他能不能用 8 个单词去描绘一下,然后就想说您能不能用简单的一句话去描述一下深度学习?
田渊栋:我觉得就是神经网络嘛,现在目前为止还是神经网络为主。就是通过神经网络的多层处理,把数据从一开始的红蓝绿这种非常简单的特征,通过一点点的自组织,变成比较复杂的特征,就是这样一个过程。当然这个想法老早老早就有了,只是最近才在实际数据集上产生了很好的效果,受到了大家的关注。
另外,计算上的神经网络和生物上的神经网络其实没有太大的关系,神经网络里的节点只是对神经元做了最简单的抽象。其实神经元结构太复杂了,一个含各种参数的微分方程,要能快速模拟上亿的神经元,代价很大;另一方面,就算模拟出来效果好,也不知道是哪个原因导致的,反而会拖累对本质的理解。
机器之心:我看您博客里面提到科技树这样一个概念。能不能以科技树的形式给大家梳理一下人工智能,或者图像识别这样一个大体的框架。
田渊栋:我在博客里写的科技树,是一个比方。你看科技树的发展,一开始枝繁叶茂,大家都觉得很有希望,可是发展一会儿就停下来了。等大家没兴趣的时候,过了几年,在某个很不起眼的地方,突然就出现一个突破。所以做一个研究员嘛,最重要的是要于无声处听惊雷,就是不能人云亦云,要静下心来找到别人没看见的方向,然后把它挖深,证明这个方向是有效的。一旦大家都觉得这个方向对,大家冲过来接你的棒了,你就是成功的。
六、关于未来人工智能行业的一些思考
机器之心:未来深度学习,包括整个人工智能面临的一个挑战,就是非监督系统学习。现在做得最好的监督系统学习,有些人觉得稍微过度,您是认可的吗?
田渊栋:对,这个话我觉得是有道理的。监督学习相对成熟些,但是需要大量的样本,往往是样本翻倍,性能才涨一点点。很多时候,对一个系统而言,光用样本把它的性能提上去就很难。非监督学习要是效果好了,对样本的需求就会少很多。比如说吧,我本来可以对围棋的每一步做一个标签,这步是好棋,这步是臭棋。但是也可以给最后输赢的结果,把这个结果反向传递回去,让算法自己发现哪一步是好棋,哪一步是臭棋。那这样的话,你输入信号变少了,就是一种半监督学习的方法;另一方面,机器也就有了超过人类的潜力。
机器之心:那这种东西也是你们在 Facebook 关注的吗?
田渊栋:我还是比较关注的。
机器之心:那你会花一些时间专门攻这方面的研究吗?
田渊栋:肯定会看一些文章嘛,然后看看有什么东西可以做的。
机器之心:会有一些 paper 出来吗?有一些计划吗?
田渊栋:现在在做,但是能不能出文章,这个不知道,肯定是要边做边看看有什么有趣的。一开始你不熟悉这个领域,你肯定先看文章,然后再选题,然后再看有什么东西可以做。你看多了之后,会慢慢的发现,噢,原来这个有问题。
机器之心:去年有一篇论文【Human-level concept learning through probabilistic program induction】讲到小数据集做得比较好的,甚至它自己在个别的案例上已经超越了(深度学习)。您是怎么评价他这种研究方式和思维方式?
田渊栋:他那篇文章用图模型做 One-shot learning,和深度学习作了对比,在生成手写字母这个任务上,在小数据集上比深度学习要好。图模型在推理上比较自然,解释性也比较强,这个是大家公认的。但是相伴地就有另一个问题,就是说设计的模型一定要对,像他写字的模型可以设计得正确,但是对于复杂的真实世界,建一个包罗万象的模型就很困难,未必有深度学习的能力强,计算机视觉这个领域,大家都做了二三十年的模型了,结果还是被卷积神经网络超过了。所以说两者现在各有所长,深度学习长于感知,图模型长于推理,如果我们能把它们连起来会是个很大的突破,是值得我们去发现的。
机器之心:所以您也比较看好这个方向,是吧?
田渊栋:图模型和深度学习如果能够很深地结合起来的话,会是一个很好的方向,现在还是比较浅。
机器之心:所以您自己在这方面愿意做一些探索?
田渊栋:都会看,我肯定不会现在下定论。先了解一下,一点点了解完之后。发现这个有意思,然后再去做。很多时候研究员做的事情,是介于了解、探索、研究之间的。你不知道在看这篇文章的时候,是为了做这个方向呢,还是属于好奇呢,还是审稿呢。所以很多时候你无法界定自己的工作。文章看多了,自然会有一些想法,如果想法有意思,就愿意花时间在上面,然后你就变成从事这个研究方向的人。做研究不像通常的工作,有个老板和你说具体要做什么。可能今天看文章,明天推公式,后天写程序,大后天发现全错了从头再来,自己得分配时间,得要找找准方向。所以啊,这个都不好说。
机器之心:之前有一些深度学习比较小的突破,像注意力模型呀,记忆模型呀,还有深度神经网络简单通俗地解释一下,给一些对这个不太专业的读者,或者做一个形象的比喻。
田渊栋:这个你看一些文章就可以了,很容易懂的。比如说注意力模型吧,看一张图,先看左边,再看右边,最后得出图里有什么的结论,和人的行为一样。听起来很有道理吧,但是实际上训练完,往往计算机看一眼就知道图里有什么,猜功太好,让它多看几眼没什么用,可有些情况下又是有用的。所以说实际机制未必和文章描述得一样。
机器之心:刚才有一点涉及到,正好田博士对物理也非常的有了解。他刚才说很多非常非常多经典的东西,其实当时田博士您记得从经典物理过渡到量子物理,几个地方都在开花。像波粒、活动方程呀,这些东西都在。然后促使了这个量子力学突飞猛进的进展。
田渊栋:对。
机器之心:您觉得现在深度学习的状态和当时从经典力学过度到量子力学那种,比较非常大的状态,能是一种状态吗?还是您个人认为深度学习还是比较平稳,比较缓慢的发展。因为现在媒体对这个的炒作也很热,好像有一点新的科技时代的降临。
田渊栋:不好说吧。量子物理怎么建立的呢?二十世纪初的时候,一个很大的问题是如何建模黑体辐射,一个东西加热到一定温度,会发出什么频率的光。物理学家们提出两种模型,各对了一半,就是拼不起来。然后大家深挖下去,作了夸张的假设,找到量子的方法去解释。相对论也是一样的,一开始大家用以太去解释光速不变,被干涉实验推翻,后来找到狭义相对论,认识到洛伦兹变换是绝对的。这两个都推翻了经典的直觉假设,刷新了大家对世界的认知。对物理来说,从不承认这些假设,到承认这些假设,是一个大突破;认知刷新,是一个大突破。
我们现在不一样,是工科不是理科,更多是一种经验的东西,也更看重经验的结果。比如说吧,因为数据集不同,模型不同,经验的结果往往是模糊的,渐近的,慢慢地大家意识到这样是对的。这就不像物理学有个明确的分界线,控制完变量后,一个假设一个公式把现象阐述得很清楚,一个实验对不对,改变整个认知,然后宣告胜利。另一方面,你可能对深度学习的认知有突破了,但那时系统性能已经超越人类了,没有人在意。这两点都会让圈外人觉得发展相对平缓,没有像物理学这样的。当然,从人工设计特征到让机器自动发现特征,这是一个比较大的认识上的突破。但是就算如此,大家好像也没有把它当成是革命,而只是默默地记下了继续往前走。也许以后历史学家们会记录成突破吧,就像我们看二十世纪初那样;但是目前看来,身在局中的我们,并不一定会感觉得到,所以大家也不要期望太高嘛。
机器之心:发生得太静悄悄了。
田渊栋:对,有可能某个人某一天宣布,深度学习是这样起作用的,认识上有了突破。然后圈外人觉得,我已经用上了,用上语音识别了,用上图像理解了,用上问答系统了,没有人管了。对他们来说,是一个很平稳的过渡嘛——软件变得越来越牛了。所以这个不像是物理,这个不一样的。物理那边,非常看重对事物的深刻理解。物理是理科,它的目标是发现。为了更新的发现,全世界可以砸钱下去不求回报。而我们这边,总的目标是做一个很好的系统给大家用,AlphaGo 战胜了李世石,大家把它当大新闻,就算世界上没人知道 AlphaGo 是如何算出好招的,也没有关系,没人管。当然,我个人非常喜欢好的理论,如果对深度学习有一个非常好的突破性理解的话,我会非常非常开心。虽然难,但我相信它迟早会发生的。
机器之心:明白,因为提到一个人工智能进展的问题。您之前写文章,提出大家不要对人工智能有过度的热捧。就是说您觉得现在发展的,它现在最大的瓶颈是什么?
田渊栋:有很多,比如说小数据,非监督学习,比如说对整个深度学习的原理不理解,大家现在就是摸瞎调参数,看怎么样。没有对这个模型有本质的理解,这个其实是一个比较大的问题,这个是需要突破的。我之前说了嘛,这个突破可能对大众来说没有太大的意义,大家都觉得用上了,就用上了。
机器之心:如果我们接下来要在这个无监督学习方面实现一些突破的话,有没有哪些您认为比较好的路径?比如说您刚才说的深度学习和图模型的结合。
田渊栋:对。
机器之心:我们有注意到您之前开发过图像的大系统。
田渊栋:对。
机器之心:我们可能把它看作是图像和自然语言处理的结合,它们这个结合的时候,它的重点在哪个地方?怎么给它结合在一起?
田渊栋:现在还是比较浅的结合,把两边的特征连在一起,或者放进模型里面混合下,就完事了。更深的结合现在还在研究中。
机器之心:那您在这个图像和自然语言处理结合的点,是不是有写论文的计划?
田渊栋:现在在做,但是还早,可以回答一些问题,刚用的人可能会觉得很惊艳,但是用多了就知道它弱在哪里,离真正能用还早。
机器之心:您怎么看待以对话引擎切入的工具,它是不是会取代我们的 App?
田渊栋:这个我也不好评论,我觉得挺好的,可能是一个很好的入口吧,通过更自然的方式来跟别人交流。
机器之心:我们之前看到一篇文章,是科技公司对人才的激烈争夺,您是如何看待这个现象?
田渊栋:我觉得这个对我们来说是好事,对吧,工资肯定会提高。另一方面,这也表明现在人才越来越重要了,以后人工智能能够自动化很多事情,有这方面的人才,能把人工智能运用得好,几个人的小公司能做到跟以前大公司一样,甚至超越,这都是有可能的。技术越发达,可能最后的效果就越好,以一当千当万,都不是天方夜谭。
机器之心:刚才我们聊的有监督学习、强化学习,最后到无监督学习。如果这个过程发展得很顺利的话,我们能够期待这个系统或者机器,能够做一些那些我们现在还不到的事情?
田渊栋:如果这些阶段都能做完的话,那基本上就差不多了。因为人也从无监督中学习,一个婴儿通过有限的监督学习慢慢学到很多技能,对吧。这几块如果能做出来的话,确实会有很大的突破。人脑的核心技术肯定是大大领先现在人类掌握的核心技术,但是工程上仍然有很多可以改进的地方,你要相信进化出来的东西,它是会有很多缺陷的。我们现在就像是原始人去研究一辆二战坦克,怎么看都觉得科技逆天;但等到了我们会造坦克了,改进的路子马上就会想到的。
七、关于国内人工智能的发展
机器之心:国内的研究水准,还有国内整个产业环境都不如美国,那您觉得中国有很大机会可以是人工智能存在的地方吗?还是我们只能做一个舶来品拿来应用,您是怎么看待的?
田渊栋:这个问题太大了,说实在的,我也不是太了解国内的很多情况。所以我也不好说,首先第一肯定咱们中国人是非常聪明的。我觉得大家如果有信心,有恒心的话,确实能够做到很好的水平。
机器之心:那像您在清华,还有在交大,您的同行在沟通的时候。您觉得他跟在美国这个领域同行沟通的时候,还是有明显的差距吗?
田渊栋:可能还有相当的差距。这次围棋大热,国内有一些像刘知青教授他们在做。但是除此之外,也没有太多的人在做这个东西。另外围棋本身有深厚的人文背景,两个因素综合起来,问一些比较宽泛的问题,也很正常。所以我想这次回来一方面是探亲,另一方面做一些报告给大家科普一下。我觉得我有资格去说这个东西,因为我正在做。当然很多不一定说得对,只是和大家探讨下。总得来说我觉得国内做得还挺好的。
机器之心:您在深度学习这个领域里面,跟国内的学者沟通的时候,会觉得有什么差异吗?
田渊栋:国外可能更细一点。国外交流的时候,大家都对问题有了解,会谈到很细的内容,会说「这个东西我没有理解,我不知道,我回去查一下资料。我得做了实验才告诉你答案」。但是国内问的问题就比较大一点。
机器之心:因为可能还没有那么深入地了解这个领域,是吗?
田渊栋:可能是吧,特别是围棋这一块。当然也有可能国内大家都愿意问比较大而宽泛的问题。
机器之心:那从论文的发表,现在的数目和质量来说,您觉得美国有多大的差距呢?
田渊栋:这个还没有仔细的研究。原创性的,有大跳跃的文章相比还是国外多一点,但是国内跟进很快。大概是这样。
机器之心:你有时候会有国内的某个研究机构出来的文章,让你觉得写得非常漂亮这种感觉吗?
田渊栋:不错的很多啊,何恺明的 ResNet 大家都在用,做得好管你国内国外,大家都会用的。如果钻研某个方向,国内做到和国外差不多水平甚至更高,非常正常。国内这种工作的强度,国外是不可想像的。
机器之心:那国内如果有深度学习方面,有浓厚这个热情和兴趣的学生,他想读一个本科。你推荐他哪些院校呢?首先您的母校交大,对吧?
田渊栋:对,是。
机器之心:如果出国留学,你推荐哪几个学校?
田渊栋:我觉得 CMU 其实是很好的一个学校,我觉得卡耐基梅隆大学的一贯风格是做事做得很细,然后大家都很认真,愿意把一些事情做好。
八、田渊栋的学习方法论
机器之心:之前您写过一些科研的总结,还有博士的过程。我们发现那些文章的归纳能力特别强。有主线,有要点,非常注重系统性和方法论,这个东西是怎么养成的,或者对于其他的研究人员或者技术人员怎么帮他们更好地做到这一点。
田渊栋:这个其实我自己的经历比较特殊嘛,我之前说过,我自己写过小说的。
机器之心:和这个有关系?
田渊栋:有关系的。我写过长篇小说,写长了之后,会有一些问题,比如说角色的把握和剧情的走向。你写下来发现这个角色和之前相比,性格走样了,说的话做的事不像他/她应该做的了。这时候再写下去就越来越糟糕,这时候就要多想想,有些段落虽然写得精彩,但于全局无益的话就得要忍痛割爱。然后反复读,再找到正确的路子写下去。像这样写多了的话会有感觉,会避坑,然后会有一些自己在方法上的总结。写博文也是一样的,一开始一泻千里,东一点西一点,然后收束了,归类了,有些大段大段的直接删掉,迭代几次之后,发表出来的才让人读着舒服。所以这个对我来说是比较特殊的经历。总的来说,我走过很多弯路,走弯路走多了,你才知道什么地方是对的。
机器之心:靠经验积累。
田渊栋:靠经验积累,如果大家想读博士的话,那还是要通过自己的经验积累,别人说的话再多,都没有自己的教训深刻。不要怕犯错。几个比较简单的经验,动作要快,不要怕犯错,多试几个方向。然后从错误中慢慢总结,知道更多的东西。我觉得现在最重要的是一个人要很聪明,要很会学习,然后愿意去尝试,不要怕犯错,就是这样子。从统计学的角度来说,经验越多,你获得的数据就越多,那你的模型的迭代速度就越快,效果就越好。所以其实就是这样一回事情。
机器之心:我看您对写作的理解就别具一格,好像写作对你来说不是简单的对学习过程的记录,甚至是您的一种思考方式了,对吧?
田渊栋:对,思考方式。
机器之心:您的文章里提到过,有时候可能看起来很平庸的东西,通过写作,可以产生非常好的效果。
田渊栋:写下来之后呢,你会有不一样的感觉。你脑子里面的东西,可能没有那么系统,甚至有自相矛盾的地方。当时没觉得什么,你写下来之后,才发现这个写下来不对,是不是要推倒重来呀,这个地方有问题呀?这就是迭代的过程。人的成长有时候得要抛弃成见,抛弃自己曾经认为十分正确的东西,再作总结,要有这个包容的意识,要知道自己可能全错。写作呢,就是提供了这样一种渠道。写作扩大了记忆力,你可以拿来思考的记忆就那么一点。你觉得你想到了所有的地方,思路很完美;但事实上是你拿了这个,把那个丢了,拿了那个,把这个丢了。只有全部写下来之后,才会发现有问题。才会去思考。我写博文的时候,第一遍不会直接发到网上的,会反复读几遍,看一看有什么问题。我自己觉得满意了,才会发。很多时候,我会觉得这个地方不通。这个是这个意思,下一段是别的意思,这两段没有连起来。你就会觉得语句有问题,语句有问题,你会自己去调整。在写作上会有这样一个洁癖嘛,你觉得这个文章写得不好,你不愿意发出来。然后这样的话,你可能对你的研究过程有思考,你把这个写下来,会发现这里做得不好,会有这个感觉,会反省,下次会想着要改进。那时间长了以后,自然会有一个比较系统性的方法。
机器之心:那您发的那么多的论文,背后是不是有特别大量的学习笔记?
田渊栋:有很多,其实我之前有写日记。反正不时就会写一点东西嘛。但说实在的,大部分论文都没有学习笔记,那样太花时间了,很多文章看两眼就过去了。毕竟文章太多,把时间花在刀刃上才是最重要的。
机器之心:这些东西虽然不是特别的系统,或者有一些东西可能还有一些缺陷,您会跟人分享吗?
田渊栋:这个还是不会分享,所以你看到的是冰山一角。能给大家分享的,都是写得比较好的,我比较满意的。你看到我写得特别系统,可能是个幻觉,因为还有大量不系统的堆着,要整理出来太费力。
机器之心:对一些想进入学习机器学领域的年轻人,有没有什么建议?
田渊栋:动作快,然后多学习,多交流,多尝试。不要怕犯错,计算机这一块犯错没有什么问题嘛,犯错就出 bug 嘛,计算机也不会爆炸。出了 bug 也没有关系,就反复调试,对吧。我觉得我们 CS(编者注:计算机科学)这个领域其实非常好,实验重复性很高。犯错了,也没有任何问题,整个周期非常短。所以我觉得特别适合年轻人学习,我觉得只要你有能动性,你只要抓住机会,多跟别人交流的话,我相信大家都能做得挺好的。
机器之心:最后一个问题,推荐几本您觉得特别好的,技术性强的,或者是科普性强的书给我们的读者。
田渊栋:说实在的,现在看书没有什么大用了。很多时候就是看论文,多了解一下,多跟别人交流,因为现在变化非常大。很多东西都不一样了,所以你看这些书能够知道以前的一些知识。其实你看论文也有同样的目标,比如说看论文第一段,这段里面其实就概括了以前的一些工作。然后你看多了,你自然而然就会对这个领域会有了解。看书当然也会看,比如说你特别想提高一下自己的数学能力的话,就要看一些经典的教材。最近我无聊去看群论,在看为什么一元五次方程得不到根式解。无聊嘛,你可以看看一些有趣的东西,并且深入思考。通过看和思考,你相当于磨炼自己的分析能力,长期不看的话感觉会变钝的,就可能人云亦云了,别人说好,你也觉得好,你作为研究员的价值就没有了。数学这些东西,经典的方法都是十年、百年的积累,不会过时的。所以好多都可以看。但是你要去追人工智能比较好的一些发展的话,其实看论文比较快。多看几遍论文的话,也基本上能够掌握这些方向的一些进展。然后多跟别人交流,我个人建议就是多交朋友。交流是很重要的,别人一句话就顶你看很多书了。你现在不可能看完所有的文章的。
机器之心:那导论性的教材需要看吗?
田渊栋:我觉得像算法这些的,还是可以看一些。
机器之心:就是看一些比较经典的教材,像贝尔萨写的书也是要看的,是吧?
田渊栋:要看,但也取决于你有没有兴趣。你可能没有时间把所有推导都推一遍,这不可能的。但你你可以把整个方法和想法看一遍,把逻辑梳理出来。看论文的时候,往往跳跃和选择性的看。因为每篇文章的目标是把这个文章卖出去,他会说自己的方法特别好,别人的方法特别差。但是其实不是这样的,对吧。文章往往是有偏向性的,所以要选择性的看。
机器之心:有没有哪些书是你觉得比较值得看的?
田渊栋:这个没有定规啊,每个人的需求都不一样。另外,你可能当时看一下,到用的时候你再去翻,这样可能会好一点,看一本书会花很多时间。没有一个准则,到最后可能就是东看一点,西看一点,关键是把你的知识体系建立起来。比如说这块你觉得不懂,你就看这块不懂的文章。
机器之心:就是有针对性的。
田渊栋:有针对性的去学,可能会比较好。比如说这次做围棋,我之前也没有做过游戏。那怎么办呢?你就看,看 David Silver 的博士论文,看以前增强学习的文献。你如果要做游戏的话,你看他的博士论文就得要看得比较仔细了。有一些关键的点,一定要搞清楚。相当于你要有选择性的看某些章节,某些文字,某些公式。你如果觉得这个重要的话,你就花时间搞定。如果不重要的话,你可以略过地看。这个就看你的积累了,你的积累肯定会告诉你什么重要,什么不重要。
以最少代价去获得到你的知识体系,没有一定的准则。
搜索能力是很重要的,想看什么就去找。反正现在网上有的是资源,现在已经不是图书馆的时代了,对吧。基本上一搜都搜到,关键怎么样搜。然后你愿意去搜什么样的东西。我觉得搜索是现代人的一个必备技能,不是说去图书馆一本一本啃下来就可以成为专家了,不是这样子的。
另外,科普只是领进门的。我以前是比较喜欢化学,后来喜欢物理。再后面慢慢到数学去,再到做计算机去。所以说这样一条轨迹,基本上化学的专业文献,只要是浅显的我都能看懂。你有基础之后,你再去看科普文,你可以猜出来科普文和专业文献之间,是怎么样的对应关系,为了让外行人看懂,作出了什么样的省略。但是如果一个没有经验的人,只看科普的话是入不了门的,容易被各种名词误导。你需要花时间在专业文献上,让知识构成体系。
©本文由机器之心原创,转载请联系本公众号获得授权。