大神Hinton的Capsule论文终于公开,神经网络迎来新探索

简介:
本文来自AI新媒体量子位(QbitAI)

11eb3f92c750f98c352eb240766114b876e12f3e

“我的观点是把它全部抛掉,重头再来。”

今年9月的一次大会上,大神Geoffrey Hinton再次号召展开一次AI革命。

应该向何处去?实际上最近几年来,Hinton的大量精力都投入到了对capsule的研究之上。他想做capsule和想要推翻反向传播,几乎是出于同一个原因:不像大脑。

capsule的提出,正是为了应对神经网络与大脑的一个不相似之处,也是Hinton这3年来一直在讲的“神经网络的一个问题”:结构中层次太少。

Hinton提出,应该在现有神经网络结构的基础上,加一个capsule的层级,每一层网络的神经元组成capsule,在内部做计算,然后输出一个压缩的结果。

到底什么是capsule?

在去年的AMA中,Hinton就谈到过“基于capsule的神经网络”,说他在Google这3年,在这项基础研究上投入了大量精力。

今年,这项研究似乎有了重大突破。

Hinton上个月在多伦多大学讲“卷积神经网络的问题及对策”时,就谈到要在现有神经网络结构的基础上,加一个capsule的层级,每一层网络的神经元组成capsule,在内部做计算,然后输出一个压缩的结果。

NIPS刚刚公布的接收论文列表中,也有Sara Sabour、Nicholas Frosst和Geoffrey E Hinton合作的Dynamic Routing Between Capsules

今年,关心capsule的网友也不少,甚至直接点名Hinton来问:

capsule怎么样了?

按照之前的说法,Hinton和谷歌大脑的同事Sara Sabour、Nicholas Frosst合作了一篇论文Dynamic Routing Between Capsules详细谈及,而这篇论文,将作为spotlight在今年12月举办的NIPS 2017上发表。

虽说Hinton曾不止一次讲他的capsule,但这篇论文一直没有亮相。

如今这篇外界期待已久的论文终于正式对外发布,地址在此:

https://arxiv.org/abs/1710.09829

74635f50a72bf83e43669feec11050f89b26a37b

论文摘要:

capsule是一组神经元,其活动向量表示特定类型实体(例如对象或对象部分)的实例化参数。我们使用活动向量的长度来表示实体存在的概率及其表示实例化参数的方向。活动capsule在一个层面上通过变换矩阵对更高层capsule的实例化参数进行预测。当多个预测相符时,较高层的capsule就开始活动。本文显示,经过区别训练的多层capsule系统在MNIST上实现了最先进的性能,在识别高度重叠的数字时,效果明显好于卷积神经网络。为了达到这样的结果,我们用了一个迭代的路由协议机制:一个低层的capsule希望将其输出发送到一个活动向量具有大标量积、预测来自低层capsule的高层capsule。

Capsule是什么?

人类视觉系统中,有一个“注视点”的概念,能让人类在视野范围内只对极小部分的图像进行高分辨率处理。这篇论文假设一个注视点带给我们的信息不仅仅是一个识别对象及其属性,还假设我们的多层视觉系统在每个注视点上都创建了一个类似分析树的东西,并忽略这些分析树在多个注视点之间如何协调。

分析树通常靠动态分配内存来构建,但是这篇论文假设对于单个注视点来说,分析树是从固定多层神经网络中“雕刻”出来的,就像用石头刻出雕像一样。神经网络的每一层会被分成很多组神经元,每一组称为一个capsule,而分析树的每个节点对应着一个活跃的“胶囊”。

Capsule的输入和输出

Capsule是输出是一个向量,这篇论文中,在保持它方向不变的情况下应用非线性缩小了它的量级,确保这个非线性输出不大于1。也正因为capsule的输出是一个向量,确保了能使用强大的动态路由机制,来确保这个输出能够发送到上层合适的parent处。

因为论文作者们希望capsule输出向量的长度能够表示这个capsule所代表的实体存在于当前输入的概率,他们使用了非线性“压缩”函数来确保端向量长度缩短到接近于0,而长向量的长度略小于1。这篇论文用判别学习来充分利用非线性特征。

公式

58e295b597b0a4ebff59690ce6a9074d859e82be

如上面公式所示,vj表示capsule j的输出,而sj是其输入。

架构

4d1b2ca8c6b5196913c64158a2e7154488d0c11e

一个简单的CapsNet共有3层。两个卷积层和一个全连接层。卷积层Conv1有256个9×9军集合,步长为1,激活函数为ReLU。这层把像素强度转换成局部特征检测信息,然后输入给主Capsules。

第二层(主Capsules)是一个卷积capsule层,32通道卷积8D capsule。

分割重叠数字

论文中的测试表明,CapsNet能够把重叠在一起的数字,还原成两个原始数字。

24dfd7a002cc23721bda3ba08a8ab3d33a1b6267

讨论

30年来,最先进的语音识别使用具有高斯混合的隐马尔可夫模型作为输出分布,这些模型具有致命的代表性限制。

Capsules通过将像素强度转换为识别片段的实例化参数向量来避免指数低效。Capsules做出了一个非常强的代表性假设:在图像的每个位置,一个Capsule代表的实体类型至多为一个。

Capsules现在的研究阶段,就像本世纪初将RNN应用于语音识别的阶段。有非常具有代表性的理由相信这是一个更好的方法,但很多细节还需要接续观察。

事实上,一个简单的Capsules系统已经在分割重叠数字时展现出无与伦比的性能,这提醒我们,Capsules是值得探索的方向。

最后再说一次,研读这篇论文,地址在此:

https://arxiv.org/abs/1710.09829

f2133a6ff57c05208d245ffd4c430f9348e1a338

本文作者:夏乙 问耕
原文发布时间:2017-10-28 
相关文章
|
3月前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
84 3
|
3月前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
53 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
3月前
|
机器学习/深度学习 编解码 算法
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
MobileNetV3是谷歌为移动设备优化的神经网络模型,通过神经架构搜索和新设计计算块提升效率和精度。它引入了h-swish激活函数和高效的分割解码器LR-ASPP,实现了移动端分类、检测和分割的最新SOTA成果。大模型在ImageNet分类上比MobileNetV2更准确,延迟降低20%;小模型准确度提升,延迟相当。
101 1
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
|
3月前
|
编解码 人工智能 文件存储
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
YOLOv7是一种新的实时目标检测器,通过引入可训练的免费技术包和优化的网络架构,显著提高了检测精度,同时减少了参数和计算量。该研究还提出了新的模型重参数化和标签分配策略,有效提升了模型性能。实验结果显示,YOLOv7在速度和准确性上超越了其他目标检测器。
70 0
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
|
5月前
|
机器学习/深度学习 算法 网络架构
神经网络架构殊途同归?ICML 2024论文:模型不同,但学习内容相同
【8月更文挑战第3天】《神经语言模型的缩放定律》由OpenAI研究人员完成并在ICML 2024发表。研究揭示了模型性能与大小、数据集及计算资源间的幂律关系,表明增大任一资源均可预测地提升性能。此外,论文指出模型宽度与深度对性能影响较小,较大模型在更多数据上训练能更好泛化,且能高效利用计算资源。研究提供了训练策略建议,对于神经语言模型优化意义重大,但也存在局限性,需进一步探索。论文链接:[https://arxiv.org/abs/2001.08361]。
62 1
|
5月前
|
人工智能 算法 安全
【2023 年第十三届 MathorCup 高校数学建模挑战赛】C 题 电商物流网络包裹应急调运与结构优化问题 赛后总结之31页论文及代码
本文总结了2023年第十三届MathorCup高校数学建模挑战赛C题的解题过程,详细阐述了电商物流网络在面临突发事件时的包裹应急调运与结构优化问题,提出了基于时间序列预测、多目标优化、遗传算法和重要性评价模型的综合解决方案,并提供了相应的31页论文和代码实现。
97 0
|
7月前
|
Web App开发 自然语言处理 算法
一文搞懂:【论文笔记】BINE:二分网络嵌入
一文搞懂:【论文笔记】BINE:二分网络嵌入
60 0
|
28天前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
64 17
|
1月前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。
|
1月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
53 10