AI教父Hinton胶囊模型又出新作——胶囊如何表示视觉层次结构

本文涉及的产品
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
简介: AI教父Hinton胶囊模型又出新作——胶囊如何表示视觉层次结构

image.png

今天给大家介绍的是深度学习三巨头之一,谷歌大脑人工智能团队首席科学家且为图灵奖获得者的Geoffrey Hinton教授于2月26日在Twitter上分享了一篇关于表示的新作,且该文仅由Hinton一人署名。在文中,他提出了一种用神经网络表示部分-整体层次结构的设想,将几个不同的领域整合到一起组成一个名为GLOM的假想系统令神经网络以人类的方式理解图像,其中的模块包括transformer,神经场,对比表示学习,蒸馏学习和胶囊网络模型。Hinton表示如果GLOM最终可用,应该能大幅度提高像transformer这类模型产生的表示方法的可解释性。

image.png

想法


心理学研究表明人们将视觉场景解析为部分-整体层级结构,并将部分和整体之间视点不变的空间关系视作部分和整体之间坐标的转换。神经网络如果需要具备和人类理解图像的思维方式,则需要弄清楚神经网络如何表示部分整体层次结构。由于神经网络并不能动态地分配一组神经元,Sabour和Hinton等人提出了一系列使用“胶囊”的网络模型。胶囊模型假设一组神经元(胶囊)将成为图像特定区域中的特定类型的一部分,然后通过激活这些预先存在的、特定类型的胶囊的子集,以及它们之间的适当连接来创建解析树。作者用胶囊来表示神经网络中的部分-整体层次结构,GLOM可以简单地理解为用于处理一系列帧序列的流水线,由大量权重相同的列组成,这些列的层次和神经科学家提出的超列相似,每一列都是由空间局部自动编码器堆叠而成,而这些编码器学习小图像块上的多级表示。每个自动编码器利用多层自下而上的编码器和多层自上而下的解码器将一个级别的嵌入转换为相邻级别的嵌入。这些级别对应于部分-整体层次结构中的级别。例如,当显示一张脸部图像时,单列可能会收敛到代表鼻孔,鼻子,脸部和人的嵌入向量上。下图则显示了不同层次的嵌入如何在单列中进行自下而上,自上而下和相同级的交互。

image.png

图1 GLOM结构单列中3个相邻级间的交互


上图并没有显示不同列中同一级别的嵌入之间的交互,它们不需要实现部分整体坐标转换。而是像多头transformer中代表不同单词片段的列之间的注意力加权交互,这更简单了,因为查询、键和值向量都与嵌入向量相同。列间交互旨在通过使该级别的每个嵌入向量向附近位置的其他类似向量回归,从而在某个级别上产生具有相同嵌入的岛。这将创建多个局部“回音室”,在某个局部“回音室”中,同一层次的嵌入主要与其他想法相似的嵌入相呼应。


优缺点


(1) 与胶囊模型相比


GLOM的主要优势在于:(1)它无需在每个级别预先将神经元分配给一组可能的离散部分,这将带来更大的灵活性。(2)它不需要动态路由,可以为部分所占据的每个位置构建属于自己的整体向量表示。(3)其用于形成岛的聚类过程比胶囊模型中使用的聚类过程要好得多。与大多数胶囊模型相比,GLOM的主要缺点是关于特定类型物体形状的知识并不局限于一小群神经元(可能会在相当大的区域内复制)。


(2) 与Transformer模型相比


GLOM和Transformer相比,做出了几点改变。(1)每层的权重都相同,因为GLOM是一个循环神经网络,并且作者将时间片转换为层。(2)利用层次上的嵌入向量作为查询,键以及值,极大地简化了注意机制。(3)用于提供更多表现力的多头被重新设计成用于实现整个部分整体层次结构的多个级别,并且某个位置的多个头之间的交互是高度结构化的,因此一个级别仅与相邻级别进行交互。(4)计算相邻级别之间交互的自下而上和自上而下的神经网络在部分和整体分布式表示之间执行坐标转换。



image.png

图2 GLOM结构,突出与Transformer间关系


(3) 与CNN模型相比


早前Hinton即表示CNN会被胶囊网络替代,如果你很喜欢CNN 的话,GLOM可被视为一种特殊的CNN。它在以下方面不同于标准CNN:(1)它仅使用1x1卷积(前端除外)。(2)位置之间的交互是通过无参数平均化来实现的。(3)它不使用单个前馈遍历表示层,而是迭代以允许由神经场实现的自上而下的影响。(4)它包括对比自我监督学习,并作为识别的一部分而不是单独的任务执行层次分割。


生物可行性


作者以三个疑问性标题阐述GLOM是否具有生物可行性。


第一,尽管GLOM受生物学启发,但将其当作生物学模型仍有些生硬,其中三个功能解释了和生物学模型格格不入的原因。(1)自下而上或自上而下的模型在不同列中的权重分配。(2)需要处理否定的示例对以进行对比学习,而又不中断视频流水线。(3)使用反向传播来学习自顶向下和自底向上模型的隐藏层。


第二,GLOM建议使用上下文监督来解决生物学家经常反对的权重共享问题。在真实的大脑中,我们想要的是一种在某个位置训练自下而上和自上而下的网络的有效方法,以便它们计算与其他位置的相应网络相同的功能,作者提出可以使用知识蒸馏来实现这一目标。


第三,阐述了睡眠在对比学习中的作用,由于查找和处理不应该相似的图像对会增加复杂性,所以GLOM在生物学模型上似乎不太合理。通过在晚上使GLOM脱机进行消极学习,以防止表示崩溃,可以避免损害GLOM的实时性能。有证据表明,高速,自上而下的序列生成发生在睡眠的纺锤体阶段。


从哲学角度出发


Hinton本人认为科学与哲学之间的区别在于,实验可以证明极端合理的想法是错误的,而极端不可行的想法(例如,通过端到端的梯度下降学习一个复杂系统)是正确的。GLOM虽然目前未实现,但是Hinton教授正在一个项目上进行测试,目的是测试GLOM体系结构以全新角度理解形状识别的能力,另外作者呼吁科研工作者积极投入以实现这部分的想法。以下为作者从哲学角度对此想法进行的一些评价:


(1)解析树中的节点由相似向量的岛表示的想法统一了两种非常不同的理解感知方法。第一种方法是经典的格式塔心理学,它通过诉诸场(field)来建立感知模型,提出了整体不同于部分总和的观点。在GLOM中,感知器被视为一个场,并且整体的共享embedding向量是有别于部分的。第二种方法是典型的人工智能方法,它通过结构描述来建立感知。GLOM是具有结构描述的。


(2)部分不看好深度学习的学者认为,神经网络无法处理组合层次结构,需要有一个“神经系统符号”接口,该接口允许神经网络的前端和后端将高层推理移交给更具符号性的系统。而作者认为GLOM的主要推理模式是由于高维向量之间的相似性进而使用的类比方式。


(3)BERT取得的巨大成功,结合早期工作表明,通过构造BERT中multi-head之间的交互,并对应其表示级别,通过添加对比学习的正则化器来鼓励每个级别上多个单词片段的局部孤岛的一致性,这可能可以说明GLOMBERT确实能够解析句子。


目录
打赏
0
0
0
0
15
分享
相关文章
生成AI的两大范式:扩散模型与Flow Matching的理论基础与技术比较
本文系统对比了扩散模型与Flow Matching两种生成模型技术。扩散模型通过逐步添加噪声再逆转过程生成数据,类比为沙堡的侵蚀与重建;Flow Matching构建分布间连续路径的速度场,如同矢量导航系统。两者在数学原理、训练动态及应用上各有优劣:扩散模型适合复杂数据,Flow Matching采样效率更高。文章结合实例解析两者的差异与联系,并探讨其在图像、音频等领域的实际应用,为生成建模提供了全面视角。
60 1
AI 世界生存手册(一):从LR到DeepSeek,模型慢慢变大了,也变强了
大家都可以通过写 prompt 来和大模型对话,那大模型之前的算法是怎样的,算法世界经过了哪些比较关键的发展,最后为什么是大模型这条路线走向了 AGI,作者用两篇文章共5.7万字详细探索一下。
AI 世界生存手册(一):从LR到DeepSeek,模型慢慢变大了,也变强了
利用通义灵码AI在VS Code中快速开发扫雷游戏:Qwen2.5-Max模型的应用实例
本文介绍了如何利用阿里云通义灵码AI程序员的Qwen2.5-Max模型,在VS Code中一键生成扫雷小游戏。通过安装通义灵码插件并配置模型,输入指令即可自动生成包含游戏逻辑与UI设计的Python代码。生成的游戏支持难度选择,运行稳定无Bug。实践表明,AI工具显著提升开发效率,但人机协作仍是未来趋势。建议开发者积极拥抱新技术,同时不断提升自身技能以适应行业发展需求。
22077 7
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。
271 15
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
SpatialVLA:上海AI Lab联合上科大推出的空间具身通用操作模型
SpatialVLA 是由上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,赋予机器人强大的3D空间理解能力,支持跨平台泛化控制。
61 7
SpatialVLA:上海AI Lab联合上科大推出的空间具身通用操作模型
轻量级AI革命:无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配部署指南
随着AI技术发展,大语言模型成为产业智能化的关键工具。DeepSeek系列模型以其创新架构和高效性能备受关注,其中R1-1.5B作为参数量最小的版本,适合资源受限场景。其部署仅需4核CPU、8GB RAM及15GB SSD,适用于移动对话、智能助手等任务。相比参数更大的R1-35B与R1-67B+,R1-1.5B成本低、效率高,支持数学计算、代码生成等多领域应用,是个人开发者和初创企业的理想选择。未来,DeepSeek有望推出更多小型化模型,拓展低资源设备的AI生态。
41 8
ACK Gateway with AI Extension:大模型推理的模型灰度实践
本文介绍了如何使用 ACK Gateway with AI Extension 组件在云原生环境中实现大语言模型(LLM)推理服务的灰度发布和流量分发。该组件专为 LLM 推理场景设计,支持四层/七层流量路由,并提供基于模型服务器负载感知的智能负载均衡能力。通过自定义资源(CRD),如 InferencePool 和 InferenceModel,可以灵活配置推理服务的流量策略,包括模型灰度发布和流量镜像。
17.1K star!两小时就能训练出专属与自己的个性化小模型,这个开源项目让AI触手可及!
🔥「只需一张消费级显卡,2小时完成26M参数GPT训练!」 🌟「从零构建中文大模型的最佳实践指南」 🚀「兼容OpenAI API,轻松接入各类AI应用平台」
AI 世界生存手册(二):从LR到DeepSeek,模型慢慢变大了,也变强了
大家都可以通过写 prompt 来和大模型对话,那大模型之前的算法是怎样的,算法世界经过了哪些比较关键的发展,最后为什么是大模型这条路线走向了 AGI,作者用两篇文章共5.7万字详细探索一下。 第一篇文章指路👉《AI 世界生存手册(一):从LR到DeepSeek,模型慢慢变大了,也变强了》
AI 世界生存手册(二):从LR到DeepSeek,模型慢慢变大了,也变强了
HiFox AI:一站式 AI 应用平台,多模型快速接入,自由选用
HiFox AI 是一站式AI应用平台,整合了30多个主流AI模型,提供文本生成、对话交流、图片生成等多种应用场景。平台内置1000+预构建AI应用,支持无代码搭建个性化应用和复杂工作流,帮助用户高效处理重复任务,显著提升工作效率。无论是普通用户还是技术专家,都能在HiFox AI上找到适合自己的解决方案,实现“人人都能使用AI”的愿景。

热门文章

最新文章