上下滑动手机屏幕,让这些方块与你的屏幕对齐,你会发现…
这些方块居然是水平排列的!
实际上,这类视觉错觉展示了人类感知世界的特殊方式,也是人类和目前深度学习认知的重要区别。
今天,我们就从这一不同出发,谈谈人类感知世界的机制,并由此畅想机器学习未来的发展方向。
回到上面这张图片,为什么这个错觉如此有效?它为什么能欺骗我们?
在上述的错觉中,你会注意到每一个在条纹上交替出现的浅蓝色和黑色方块的组合元素,会在特定的方向上看起来小一些。
除此之外,你还会注意到:图片中的深蓝色条纹之间的线跟之前的相比,高度不太一样。这两个错觉互相结合,形成了条纹在一直向上偏,或者向下偏的错觉。
即便将这幅图片旋转了90度,你仍然会发现浅蓝色的方块看起来的确是互相平行的。
这是因为深蓝色的方块总是看起来是一样大,并且它们内部的线条也有一样的长度。
和这一错觉“一脉相承”的还有另外两个视觉错觉:
-
咖啡厅墙面上的错觉观察
http://www.richardgregory.org/papers/cafe_wall/cafe-wall.pdf
-
Akiyoshi Kitaoka的边缘错觉
http://www.psy.ritsumei.ac.jp/~akitaoka/tiltillusionreview2007.pdf
咖啡厅墙面上的错觉,是墙面方砖之间用来填充的砂浆的亮度在黑色和白色之间的时产生的。
这个错觉的效果是:每块方砖同相邻的方砖相比看起来会渐渐的变大(或者变小)
再来看看Akiyoshi Kitaoka的边缘错觉。
和Y型连接错觉:
同样,你会觉得这些实际水平的线,看起来歪了。
顺便说一句,这个错觉的效果在纵向也适用。
我们的大脑显然并没有将这幅图片作为一个整体来看待。相反,它将图像看待成若干图像的组合,并且识别彼此之间的相邻关系。为什么邻近关系对我们的视觉有如此强烈的影响?这是由于人类所具有的“直观功能”,让大脑更快地重建图片。
换句话说,我们的大脑能够瞬间识别图形模式,促进我们对于场景的解读。我们的视觉会自动发挥类似语义推断的效果,确保大脑没有忽视更高层次的语义规律。这就是为什么无论我们怎么说服自己线条确实是平行的,也不可能“看不见”这样的错觉。
这种影响在音频领域上也有出现。有一个以科学家Roger Shepard命名的“谢泼德音调”听觉错觉,由三组上升的音调组成,高音调强度逐渐降低,中音调的响度不变,而低音调会变得更响。
我们的大脑会误以为这是两组一直上升的音调。通过这个视频我们可以更好的理解。
来听一听“谢泼德音调”听觉错觉吧!
这些关于视觉和声学的错觉向我们揭示了我们的大脑是如何感知世界的。我们的大脑感受到了声音和图片的内在相对关系,然后输出一个基于趋势的预测,即使这个趋势并不存在。
你的大脑不能推翻它看到的规律,所以它会进行错误的预测。你可以继续看上面的图片,但是你不能忽略你看到的倾斜的线。如果你远距离观察图片,或者从某一个角度看,你就能战胜“直观功能”的错觉,从而正确找到图片的规律。
为什么相对大小如此重要?我们通常通过这些角度感知深度:物体重叠,比例缩小,大气透视,垂直放置和线性透视。大脑利用上述这些来重建世界的三维表象。我们处在一个3D世界中,我们的感官可以理解这个世界并和其交互。
对物体三维结构的观察是光学错觉的来源,象棋盘阴影错觉是一个著名的例子:
A和B其实颜色相同!
下面是另外一个错觉实例。这个错觉说明了我们的大脑需要充足的时间去正确重构其感知。
在上述的实验中,当你关注图片的中心时,你会注意到周边视野看到的面部会变形。
这些图片快速闪现,我们的大脑能看到两幅图片之间的相互干扰,但是还没有快到让我们能够正确重构这张图片。
实际上,深度学习网络完全捕捉图像特征。与此不同的是,生物大脑使用“直观功能”(即快速和启发学习)去构建模式和规率。
大脑依靠这些模式和规律来感知事物。深度学习采用一些忽视特定不变特征的网络(例如ConvNets的翻译)去进行专门的训练。
深度学习网络没有针对“直观功能”进行的学习,而“直观功能”是通向模式识别,进而通向语义解释的必由之路。
为了达到在人类意义的视觉感知,我们必须训练神经网络去学习一些基本的人类采用的图像识别技巧,例如遮挡,透视和阴影。
为了说明深度学习系统的视觉感知跟人类有多大的不同,最近的一篇论文《调查人类在玩视频游戏时运用的经验》研究了如何去除人类在玩游戏时的“直观功能”。
《调查人类在玩视频游戏时运用的经验》
https://openreview.net/pdf?id=Hk91SGWR-
研究者修改了街机游戏,重新渲染了游戏中的纹理。在修改后的游戏中,人类表现的非常糟糕。相比之下,深度学习系统在前后两个游戏中表现相当。
深度学习系统不需要使用人类的经验,另外一方面,人类可以利用现有的经验(或“直观功能”),以较少次数的尝试学习如何玩游戏。这告诉我们人类利用经验可以快速学习。
DeepMind心理实验室致力于探索深度学习与人类视觉识别之间的差异。所进行的实验包括很多人类和机器都可以操作的实验。通过检验二者表现上的差异,我们可以了解两个系统之间的认知差异。
DeepMind心理实验室
https://deepmind.com/blog/open-sourcing-psychlab/
总的来说,DeepMind心理实验室观察到,人类采用了并行处理和顺序处理相结合的手段,而机器只采用了并行处理。对比采用结合手段和只采用并行处理的机器的效率,发现前者更慢。
DeepMind在BioArxiv上发布的另外一篇文章《将前额皮层看作元增强学习系统》提出,大脑使用两种不同的强化学习系统。
《将前额皮层看作元增强学习系统》
https://www.biorxiv.org/content/early/2018/04/06/295964
通常认为,生物大脑中的强化学习是由多巴胺的释放所驱动的。这就是奖励驱动学习假说的标准模型。DeepMind提出,有两个增强学习系统:一个基于标准的多巴胺模型,另一个位于前额叶皮层。前额叶皮层的学习受到了第一个系统的影响。标准的多巴胺模型储存经验(或“直观功能”),并以此指导前额叶皮层的动态学习。
所以无论什么时候我们看到了什么,都是透过我们的经验,这层“有色眼镜”看到的。然而,正如你在上面的脸部的例子中看到的那样,我们的大脑有个“认知过程”,试图重建眼睛所看到的东西。
如果重建过程时间太短,认知过程就会出错。我们的大脑始终采用启发式方法。我们也发现启发式方法在很多方面都会失败。
认知偏见谱图
Geoffrey Hinton和他的胶囊网络研究可能代表了正确的方向。在胶囊网络中,有两个重要阶段。第一阶段是通过ConvNet识别对象的各个部分,第二阶段投票算法找出哪个构成部分更吸引感知系统的注意力。这个由目标识别和推论两个阶段构成的过程,似乎正在受到研究者们的关注。
Geoffrey Hinton胶囊网络研究论文:
https://arxiv.org/pdf/1710.09829.pdf
图右(从上到下):路由胶囊层,主要胶囊层,输入层
在20世纪80年代,超级计算机发展出现了一个新领域,这就是所谓的计算科学,它不同于现有的科学方法(即理论科学和实验科学)。
计算科学通过计算机模拟来探索物理系统。同样的,深度学习研究正在渗透到神经科学和心理学领域。也就是说,当我们将我们的模拟与自己进行比较时,我们也逐渐开始了解人类认知的本质。
总的来说,深度学习的新兴研究趋势是我们开始更深入地挖掘人类感知的本质,并探寻它与深度学习认知的不同之处。
从深度学习研究人员的角度来看,仅仅理解数学和技术是不够的,人们必须熟悉基本人类感知的特征。
人们公认对抗性特征对于深度学习来说是一个大问题,为了解决这样的问题,我们需要理解为什么这些问题对于人类认知来说不是问题。这正是Geoffrey Hinton试图论述的。
原文发布时间为:2018-04-19
本文作者:文摘菌