被眼睛欺骗?这正是你比机器高明的地方!深度学习如何处理认知错觉

简介:

上下滑动手机屏幕,让这些方块与你的屏幕对齐,你会发现…

这些方块居然是水平排列的!

实际上,这类视觉错觉展示了人类感知世界的特殊方式,也是人类和目前深度学习认知的重要区别。

今天,我们就从这一不同出发,谈谈人类感知世界的机制,并由此畅想机器学习未来的发展方向。

回到上面这张图片,为什么这个错觉如此有效?它为什么能欺骗我们?

在上述的错觉中,你会注意到每一个在条纹上交替出现的浅蓝色和黑色方块的组合元素,会在特定的方向上看起来小一些。

除此之外,你还会注意到:图片中的深蓝色条纹之间的线跟之前的相比,高度不太一样。这两个错觉互相结合,形成了条纹在一直向上偏,或者向下偏的错觉。

即便将这幅图片旋转了90度,你仍然会发现浅蓝色的方块看起来的确是互相平行的。

这是因为深蓝色的方块总是看起来是一样大,并且它们内部的线条也有一样的长度。

和这一错觉“一脉相承”的还有另外两个视觉错觉:

  • 咖啡厅墙面上的错觉观察

    http://www.richardgregory.org/papers/cafe_wall/cafe-wall.pdf

  • Akiyoshi Kitaoka的边缘错觉

    http://www.psy.ritsumei.ac.jp/~akitaoka/tiltillusionreview2007.pdf

咖啡厅墙面上的错觉,是墙面方砖之间用来填充的砂浆的亮度在黑色和白色之间的时产生的。

080c93514fb1dd528c16549f67d2e2543e3442dc

这个错觉的效果是:每块方砖同相邻的方砖相比看起来会渐渐的变大(或者变小)

再来看看Akiyoshi Kitaoka的边缘错觉。

56ff22deff380ba2fdfbd0bd074446a31304a736

和Y型连接错觉:

deeaec53150ce1e2bcbf29daffcc1d4ba865a06d

同样,你会觉得这些实际水平的线,看起来歪了。

顺便说一句,这个错觉的效果在纵向也适用。

我们的大脑显然并没有将这幅图片作为一个整体来看待。相反,它将图像看待成若干图像的组合,并且识别彼此之间的相邻关系。为什么邻近关系对我们的视觉有如此强烈的影响?这是由于人类所具有的“直观功能”,让大脑更快地重建图片。

换句话说,我们的大脑能够瞬间识别图形模式,促进我们对于场景的解读。我们的视觉会自动发挥类似语义推断的效果,确保大脑没有忽视更高层次的语义规律。这就是为什么无论我们怎么说服自己线条确实是平行的,也不可能“看不见”这样的错觉。

这种影响在音频领域上也有出现。有一个以科学家Roger Shepard命名的“谢泼德音调”听觉错觉,由三组上升的音调组成,高音调强度逐渐降低,中音调的响度不变,而低音调会变得更响。

我们的大脑会误以为这是两组一直上升的音调。通过这个视频我们可以更好的理解。

来听一听“谢泼德音调”听觉错觉吧!

167d1c411808c1fb29b746f30e5c50bc20625568

这些关于视觉和声学的错觉向我们揭示了我们的大脑是如何感知世界的。我们的大脑感受到了声音和图片的内在相对关系,然后输出一个基于趋势的预测,即使这个趋势并不存在。

你的大脑不能推翻它看到的规律,所以它会进行错误的预测。你可以继续看上面的图片,但是你不能忽略你看到的倾斜的线。如果你远距离观察图片,或者从某一个角度看,你就能战胜“直观功能”的错觉,从而正确找到图片的规律。

为什么相对大小如此重要?我们通常通过这些角度感知深度:物体重叠,比例缩小,大气透视,垂直放置和线性透视。大脑利用上述这些来重建世界的三维表象。我们处在一个3D世界中,我们的感官可以理解这个世界并和其交互。

对物体三维结构的观察是光学错觉的来源,象棋盘阴影错觉是一个著名的例子:

67a1db22db2883f1741409db2136fd12cec249b0

A和B其实颜色相同!

下面是另外一个错觉实例。这个错觉说明了我们的大脑需要充足的时间去正确重构其感知。

2984b5b8fd42ad6b892c3fadff0b7061f686b4ea

在上述的实验中,当你关注图片的中心时,你会注意到周边视野看到的面部会变形。

这些图片快速闪现,我们的大脑能看到两幅图片之间的相互干扰,但是还没有快到让我们能够正确重构这张图片。

实际上,深度学习网络完全捕捉图像特征。与此不同的是,生物大脑使用“直观功能”(即快速和启发学习)去构建模式和规率。

大脑依靠这些模式和规律来感知事物。深度学习采用一些忽视特定不变特征的网络(例如ConvNets的翻译)去进行专门的训练。

深度学习网络没有针对“直观功能”进行的学习,而“直观功能”是通向模式识别,进而通向语义解释的必由之路。

为了达到在人类意义的视觉感知,我们必须训练神经网络去学习一些基本的人类采用的图像识别技巧,例如遮挡,透视和阴影。

861a96271a13ae74e70efc5e7fd0e859117a6d5c

为了说明深度学习系统的视觉感知跟人类有多大的不同,最近的一篇论文《调查人类在玩视频游戏时运用的经验》研究了如何去除人类在玩游戏时的“直观功能”。

《调查人类在玩视频游戏时运用的经验》

https://openreview.net/pdf?id=Hk91SGWR-

a2bfa6124b24bde7cd5e2fac389fb9c7fd0cf28b

研究者修改了街机游戏,重新渲染了游戏中的纹理。在修改后的游戏中,人类表现的非常糟糕。相比之下,深度学习系统在前后两个游戏中表现相当。

深度学习系统不需要使用人类的经验,另外一方面,人类可以利用现有的经验(或“直观功能”),以较少次数的尝试学习如何玩游戏。这告诉我们人类利用经验可以快速学习。

DeepMind心理实验室致力于探索深度学习与人类视觉识别之间的差异。所进行的实验包括很多人类和机器都可以操作的实验。通过检验二者表现上的差异,我们可以了解两个系统之间的认知差异。

DeepMind心理实验室

https://deepmind.com/blog/open-sourcing-psychlab/

总的来说,DeepMind心理实验室观察到,人类采用了并行处理和顺序处理相结合的手段,而机器只采用了并行处理。对比采用结合手段和只采用并行处理的机器的效率,发现前者更慢

DeepMind在BioArxiv上发布的另外一篇文章《将前额皮层看作元增强学习系统》提出,大脑使用两种不同的强化学习系统。

《将前额皮层看作元增强学习系统》

https://www.biorxiv.org/content/early/2018/04/06/295964

通常认为,生物大脑中的强化学习是由多巴胺的释放所驱动的。这就是奖励驱动学习假说的标准模型。DeepMind提出,有两个增强学习系统:一个基于标准的多巴胺模型,另一个位于前额叶皮层。前额叶皮层的学习受到了第一个系统的影响。标准的多巴胺模型储存经验(或“直观功能”),并以此指导前额叶皮层的动态学习。

所以无论什么时候我们看到了什么,都是透过我们的经验,这层“有色眼镜”看到的。然而,正如你在上面的脸部的例子中看到的那样,我们的大脑有个“认知过程”,试图重建眼睛所看到的东西。

如果重建过程时间太短,认知过程就会出错。我们的大脑始终采用启发式方法。我们也发现启发式方法在很多方面都会失败。

f1d35871930c5acb7df21bc92edbdb63680e2a7c

认知偏见谱图

Geoffrey Hinton和他的胶囊网络研究可能代表了正确的方向。在胶囊网络中,有两个重要阶段。第一阶段是通过ConvNet识别对象的各个部分,第二阶段投票算法找出哪个构成部分更吸引感知系统的注意力。这个由目标识别和推论两个阶段构成的过程,似乎正在受到研究者们的关注。

Geoffrey Hinton胶囊网络研究论文:

https://arxiv.org/pdf/1710.09829.pdf

3c14886662728cd9d6817397c434682f8ab481bf

图左(从上到下):一个胶囊输出向量,出现可能性,位置

图右(从上到下):路由胶囊层,主要胶囊层,输入层

在20世纪80年代,超级计算机发展出现了一个新领域,这就是所谓的计算科学,它不同于现有的科学方法(即理论科学和实验科学)。

计算科学通过计算机模拟来探索物理系统。同样的,深度学习研究正在渗透到神经科学和心理学领域。也就是说,当我们将我们的模拟与自己进行比较时,我们也逐渐开始了解人类认知的本质。

总的来说,深度学习的新兴研究趋势是我们开始更深入地挖掘人类感知的本质,并探寻它与深度学习认知的不同之处。

从深度学习研究人员的角度来看,仅仅理解数学和技术是不够的,人们必须熟悉基本人类感知的特征。

人们公认对抗性特征对于深度学习来说是一个大问题,为了解决这样的问题,我们需要理解为什么这些问题对于人类认知来说不是问题。这正是Geoffrey Hinton试图论述的。


原文发布时间为:2018-04-19

本文作者:文摘菌

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。

相关文章
|
机器学习/深度学习 人工智能 计算机视觉
带你读《深度学习与图像识别:原理与实践》之一:机器视觉在行业中的应用
这是一部从技术原理、算法和工程实践3个维度系统讲解图像识别的著作,由阿里巴巴达摩院算法专家、阿里巴巴技术发展专家、阿里巴巴数据架构师联合撰写。在知识点的选择上,本书广度和深度兼顾,既能让完全没有基础的读者迅速入门,又能让有基础的读者深入掌握图像识别的核心技术;在写作方式上,本书避开了复杂的数学公式及其推导,从问题的前因后果 、创造者的思考过程,利用简单的数学计算来做模型分析和讲解,通俗易懂。更重要的是,本书不仅仅是聚焦于技术,而是将重点放在了如何用技术解决实际的业务问题。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的奥秘:机器如何理解世界
【9月更文挑战第10天】在人工智能领域,深度学习如同璀璨星辰,引领技术潮流。作为机器学习的重要分支,它通过构建深层神经网络模拟人脑学习过程,自动提取特征并优化性能,从而实现对复杂问题的理解和处理。本文将探讨其基本原理、工作机制及如何应用于图像识别、自然语言处理和智能推荐等领域,并展望其未来发展与挑战。
|
3月前
|
机器学习/深度学习
深度学习的魔法:如何让机器像人一样思考
在这篇文章中,我们将探索深度学习的奥秘,这是一种让机器能够模仿人类思维方式的先进技术。我们将通过一个简单的例子——教机器识别猫的图片——来揭示深度学习的工作原理。你将看到,即使是这样一个简单的任务,也需要复杂的数学模型和大量的数据。但别担心,我们会用简单的语言来解释这一切。最后,我们将讨论深度学习如何改变我们的生活,以及它面临的挑战。让我们一起踏上这段神奇的旅程吧!
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的前沿技术和应用:从自然语言处理到机器视觉
深度学习作为人工智能的核心技术,近年来得到了广泛的关注和应用。除了在语音识别、自然语言处理等领域有不俗表现外,深度学习在机器视觉方面也取得了很多进展。本文将介绍深度学习的前沿技术和应用,包括自然语言处理、图像识别和目标检测等。
|
机器学习/深度学习 分布式计算 搜索推荐
这是一张机器&深度学习代码速查表
这是一张机器&深度学习代码速查表
这是一张机器&深度学习代码速查表
|
机器学习/深度学习 人工智能 算法
除了深度学习,你需要知道AI技术的23个方向 | 机器之心首份技术报告
在即将过去的 2017 年,深度学习技术蓬勃发展,AlphaZero 从「零」开始在多种棋类竞技上快速发展,DeepStack 与 Libratus 在德州扑克中击败人类高手,GAN 衍生出各种变体,语音合成从实验室走向产品,Vicarious 提出全新概率生成模型并击破人类的 CAPTCHA 验证码。
838 0
除了深度学习,你需要知道AI技术的23个方向 | 机器之心首份技术报告
|
机器学习/深度学习 人工智能 自然语言处理
机器之心专访吴恩达,深度学习课程项目Deeplearning.ai正式发布
6 月 23 日,吴恩达通过 Twitter 宣布自己离职百度之后的新一步动向——Deeplearning.ai,并宣称将在 8 月份公布有关 Deeplearning.ai 的更多细节。今日,机器之心获得消息,Deeplearning.ai 项目正式发布。在发布前夕,吴恩达接受了机器之心的专访,对该项目进行了更为详细的解读。
388 0
机器之心专访吴恩达,深度学习课程项目Deeplearning.ai正式发布
|
机器学习/深度学习 人工智能 算法
带你读《深入理解AutoML和AutoDL:构建自动化机器 学习与深度学习平台》之二:自动化人工智能
本书从理论与实践的双重维度,对AutoML和AutoDL的入门知识和进阶知识做了全面介绍。