CapsNet 再升级!无监督学习图像特征,取得最先进结果

简介: 胶囊网络的改进版本

雷锋网 AI 科技评论按:CapsNet 作者 Sara Sabour 联合 Geoffrey Hinton 及牛津大学研究者在最新的论文《Stacked Capsule Autoencoders》中提出胶囊网络的改进版本,该胶囊网络可以无监督地学习图像中的特征,并取得了最先进的结果。

TB1X_4Nd8Cw3KVjSZFlXXcJkFXa.png

一个物体可以看作是一组相互关联的几何组成部分,因此,一个明确利用这些几何关系来识别物体的系统,在应对视点的变化上理应具有鲁棒性,因为内在几何关系的视点是不会有变化的。

在这篇论文中,他们提出一个无监督版本的胶囊网络,通过可查看所有部件的神经编码器,进而推断物体胶囊的位置与姿势。该编码器通过解码器进行反向传播训练,通过混合式姿势预测方案来预测已发现部件的姿势。同样是使用神经编码器,通过推断部件及其仿射变换,可以直接从图像中发现具体的部件。换句话说,每个相应的解码器图像像素建模,都是仿射变换部分做出的混合预测结果。他们通过未标记的数据习得物体及其部分胶囊,然后再对物体胶囊的存在向量进行聚类。

最后,该成果在 SVHN 上获得了最先进的无监督分类结果 (55%),同时在 MNIST 上获得了接近最先进的分类结果。(98.5%)。

TB1zxXQd8Cw3KVjSZFuXXcAOpXa.png

该胶囊网络全名 Stacked Capsule Autoencoder (SCAE),具体可分为两个阶段:Part Capsule Autoencoder(PCAE)及 Object Capsule Autoencoder (OCAE)。

PCAE 负责将图像分割成组件,借此推断其姿势,并将图像像素重构为转换后的部件模板像素的混合产物;OCAE 则试图将发现的部件及其姿势组成更小的一组对象,再结合针对每个部件的混合预测方案来解释部件的姿势。

每个物体胶囊通过将姿势-对象-视图-关系(OV)乘以相关的物体-部件-关系 (OP) 来为这些混合物提供组件。SCAE 在未经标记的数据上进行训练时借此捕获整个物体及其部件之间的空间关系。

TB1iTJHd8iE3KVjSZFMXXbQhVXa.png

Stacked Capsule Autoencoder (SCAE)

总的来说,该工作的主要贡献在于提出了一种全新的表示学习方法,其中高度结构化的解码器可以用来训练编码器网络,进而将图像分割成相应的部件及其姿势,而另一个编码器网络则可以将这些部件组成连贯的整体。尽管训练目标不涉及分类/聚类,但 SCAE 依然是唯一一个在无监督对象分类任务中不依赖于互信息(MI)中也能获得有竞争力结果的方法。

via https://arxiv.org/pdf/1906.06818.pdf

雷锋网 AI 科技评论 雷锋网(公众号:雷锋网)

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
基于深度学习的地面垃圾识别分类技术
AI垃圾分类系统结合深度学习和计算机视觉技术,实现高效、精准的垃圾识别与自动分类。系统集成高精度图像识别、多模态数据分析和实时处理技术,适用于市政环卫、垃圾处理厂和智能回收设备,显著提升管理效率,降低人工成本。
基于深度学习的地面垃圾识别分类技术
|
2月前
|
机器学习/深度学习 数据采集 人工智能
深度学习的魔法:用神经网络识别手写数字
本文将引导读者了解如何使用深度学习技术,特别是卷积神经网络(CNN)来识别手写数字。我们将从基础理论出发,逐步深入到实际操作,包括数据的预处理、模型的构建和训练,以及结果的评估。通过本文,读者不仅能掌握使用深度学习进行图像识别的技能,还能理解其背后的原理。让我们一同揭开深度学习的神秘面纱,探索其在图像处理领域的无限可能。
|
2月前
|
机器学习/深度学习 传感器 监控
深度学习之动作识别与分类
基于深度学习的动作识别与分类是指通过深度学习模型从视频或传感器数据中自动识别和分类人类动作的过程。这项技术广泛应用于视频监控、安全监控、体育分析、医疗康复、虚拟现实(VR)和增强现实(AR)等领域。
93 1
|
3月前
|
机器学习/深度学习 算法 计算机视觉
深度学习之图像修复算法
基于深度学习的图像修复算法旨在通过学习和生成模型来填补图像中的缺失或损坏部分。
96 7
|
3月前
|
机器学习/深度学习 传感器 数据采集
深度学习之时空预测
基于深度学习的时空预测是一种利用深度学习模型进行时间和空间数据的联合建模与预测的方法。时空预测模型被广泛应用于交通流量预测、气象预报、环境监测、城市计算、疫情传播等多个领域。
144 1
|
4月前
|
机器学习/深度学习 监控 算法
目标检测算法技术
8月更文挑战第11天
|
4月前
|
网络安全 知识图谱 Python
自监督学习在多模态数据融合中的实践与探索
【8月更文第9天】自监督学习(Self-Supervised Learning, SSL)是一种机器学习方法,它利用未标记的数据来训练模型。这种方法通过设计预训练任务来挖掘数据的内在结构,无需人工标注,从而减少了对大量标注数据的依赖。当应用于多模态数据时,自监督学习可以帮助模型学习到不同模态之间的关联性,进而提高模型在特定下游任务上的表现。
261 7
|
6月前
|
机器学习/深度学习 数据采集 自动驾驶
探索深度学习的点云分类
点云分类是指将三维点云数据中的每个点或整个点云进行分类的任务。点云数据由大量三维点构成,每个点包含空间坐标(x, y, z),有时还包含其他信息如颜色和法向量。点云分类在自动驾驶、机器人导航、3D重建等领域有广泛应用。
173 1
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】自然语言引导下的单目深度估计:泛化能力与鲁棒性的新挑战
【机器学习】自然语言引导下的单目深度估计:泛化能力与鲁棒性的新挑战
82 0
|
机器学习/深度学习 人工智能 文字识别
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
下一篇
DataWorks