一个星期前由François Chollet在Twitter上引发的“深度学习是否进入平台期”的讨论,因为大神Geffory Hinton的参与达到了高峰。
Hinton:深度学习可能需要“推倒重来”
据科技媒体Axios报道,上周三在多伦多举行的一个AI会议上Hinton表示,他现在对反向传播算法“深感怀疑”。这一算法是用来训练人工神经网络的常见方法,该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。值得一提的是,Hinton本人是反向传播算法的早期提出者,1986年,Hinton在一篇论文中首次将反向传播算法引入多层神经网络训练。
尽管在这次会议上,不少参会的科学家表示在人工智能的未来反向传播仍处于核心地位,但Hinton的发言一锤定音:可能会有全新的方法推出。Hinton在现场引用普朗克的名言称:“Max Planck 曾说:‘科学之道,不破不立。’未来取决于对我所说的一切持怀疑态度的那些研究生。”他还表示,如果要让深神经网络变得更聪明,即向无监督学习过渡,“这可能意味着要彻底放弃反向传播。”
这一观点在Twitter上引起了广泛讨论,Pedro Domingos、李飞飞等多人纷纷转发。在李飞飞转发的Twitter上,雷锋网(公众号:雷锋网)注意到,前几天的“few tools lives enternity”已经悄然变成了“no tool is eternal”,Hinton这一观点对AI研究者的震撼之大可见一斑。
众所周知,从Hinton于2006年在Science杂志上发表《Deep Belief Networks》的论文开启了深度神经网络的新时代。十余年来,基于Hinton及众多先驱提出的深度学习理念框架,深度学习在有监督学习上取得了一定的突破,但同时也暴露出了一定的技术局限,如数据需求大、环境适应弱、可解释性差、性能差异大、数据分享难等。不少研究者认为,人工智能的下一步发展有待于在无监督学习领域的进一步突破。
如何破局?Hinton提出Capsule
Hinton近日对其在2011年的一篇论文《Transforming Auto-encoders》提出的Capsule概念重新进行了思考及完善,关于Capsule的最新论文《Dynamic Routing Between Capsules》目前已被NIPS 2017接收,目前这篇论文并未正式发表,但我们还是可以从Google Research Blog发表的论文摘要以及部分提到了Capsule的Slide上了解到关于Hinton对Capsule的想法,雷锋网摘编如下:
Capsule 是一组神经元,其活动向量的矢量方向及方向分别代表实体化程度及实例参数,相同水平下的活跃capsule可通过矩阵变换对更高级别的Capsule实体化参数进行预测。当多个预测一致时,高级别的Capsule将会更加活跃。在论文中我们展示了用于判别训练的多层Capsule系统在MNIST数据集表现臻于完美,相比起高度重叠的数字的卷积网络的性能更为优越。为达到这一目标,我们试用使用迭代的路由协议机制,即低级别的Capsule倾向于将预测结果输出发送至高级别的Capsule,从而使得高级别Capsule的活动向量具备大标量积。论文最终版本正在修订中,并会包含评论者的意见。
换言之,Capsule试图在神经网络内形成和抽象创建子网络,也就是说,如果你看一个标准的神经网络,层与层之间是完全连接的(也就是说,层1中的每个神经元都可以访问层0中的每个神经元,并且本身被第2层中的每个神经元访问,以此类推), 这种更复杂的图形拓扑似乎可以更有效地地提高生成网络的有效性和可解释性。论文中提到的 Dynamic Routing,就是希望能够形成一种机制,让网络能够将适合某一层 Capsule 处理的内容,路由到对应的 Capsule让其处理,从而形成了某种推断链。
(关于Capsule理论的更多内容,可参见雷锋网之前文章:《Hinton亲自讲解迄今未发表工作:胶囊理论的核心概念到底是什么?》)
如何看待Capsule ?
在知乎的这一问题下,得到赞同最高的SIY.Z是这样回答的:
首先这个工作成功或者不成功都是很正常的,就算 Capsule 真的会成为以后的趋势,Hinton 也未必这么快找到正确的训练算法;就算 Hinton 找到了正确的训练算法,也没有人能够保证,Capsules 的数量不到人脑中 mini-columns 数量的时候,能够起达到人类的识别率(何况现在 CNN 虽然问题很多,但是识别率很多已经超过人类了)。
从目前已经披露的信息看,Capsule的概念会更仿生一些,能够更好地模拟人类大脑神经元之间的复杂连接结构,但对这个框架具体的数学描述仍有待于进一步研究。
雷锋网认为,在最近几年,深度学习得到了广泛的应用,深度学习工程化的门槛逐步降低,导致在诸多学术会议上已经开始呈现出“不用深度学习都不好意思和人打招呼”的现象,在这种环境下,不少研究者也在探索深度学习之外的其他理论研究,Hinton的“深度学习需要推倒重来,可能需要抛弃反向传播”的反思更多具备指导性的意义,也会激励更多人在其他的理论研究上进一步探索。
值得一提的是,有不少国内学者已经走在了这个领域的前列。如南京大学的周志华教授今年稍早发表的关于多层随机森林的论文《Deep Forest: Towards An Alternative to Deep Neural Networks》是关于用做深度学习的,也不需要反向传播;而在去年,周志华教授也针对当前深度学习存在的技术局限提出了“学件”的解决方案,在这一波对深度学习的重新思考中,我们也期望有更多的国内学者能够有更多的突破。