论文笔记之:Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

简介: Learning Cross-Modal Deep Representations for Robust Pedestrian Detection 2017-04-11  19:40:22  Motivation:  本文主要是考虑了在光照极端恶劣的情况下,如何充分的利用 thermal data 进行协助学习提升 可见光图像的 特征表达能力,而借鉴了 ICCV 2015 年的一个文章,称为:监督迁移的方法,以一种模态的特征为 label,以监督学习的方式实现无监督学习。

 

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

2017-04-11  19:40:22 

 

Motivation:

  本文主要是考虑了在光照极端恶劣的情况下,如何充分的利用 thermal data 进行协助学习提升 可见光图像的 特征表达能力,而借鉴了 ICCV 2015 年的一个文章,称为:监督迁移的方法,以一种模态的特征为 label,以监督学习的方式实现无监督学习。说到这里可能比较让人糊涂,什么叫:以监督学习的方式实现无监督学习?说道监督学习,因为这里 training RGB modal 是以监督学习的方式进行训练的,因为标签是以 thermal 提取出来的特征为调整的目标(称为 target label)。说到无监督学习,其实这里没有用到人工标注的数据,只是用到了网络提取出来的 thermal feature, 而这就是比较好的地方了。这也是那个 Supervised Transfer 文章的主要卖点,而这里作者将其应用到 multi-modal 的情况下。

  

 

 

  所以,很自然的就可以知道网络的大致设计:

  1. 首先要有特征的跨模态迁移,算是第一阶段:

  

 

 

    那么,可以看到上图就是刚刚讲的 监督学习的方式进行特征迁移的过程。

 

  2. 有了这个增强的特征,我们就可以利用这个进行黑暗环境下的行人检测了:

  看到这个网络的设计,主要是原始特征和后续增强特征的组合了,然后进行最终的 bounding box regression 以及 softmax 分类。

  从而完成整个行人检测算法。效果之所以有提升,主要在于第二个网络提供了更好的 黑暗环境下从 thermal data 那里学习到的 feature。

 

  

  这就是文章的主题思想了。。。。

  

  作者在两个数据集上做了相关的实验。。。具体结果见原文了。

  

  Reference:

  1. Learning Cross-Modal Deep Representations for Robust Pedestrian Detection. In CVPR, 2017. 

  2. S. Gupta, J. Hoffman, and J. Malik. Cross modal distillation for supervision transfer. In CVPR, 2016. 

  3. J. Hoffman, S. Gupta, and T. Darrell. Learning with side information through modality hallucination. In CVPR, 2016 

 

   

相关文章
|
9月前
|
机器学习/深度学习 算法
【RLchina第四讲】Model-Based Reinforcement Learning(下)
【RLchina第四讲】Model-Based Reinforcement Learning(下)
116 0
|
9月前
|
机器学习/深度学习 资源调度 算法
【RLchina第四讲】Model-Based Reinforcement Learning(上)
【RLchina第四讲】Model-Based Reinforcement Learning(上)
230 0
|
9月前
|
机器学习/深度学习 开发框架 数据建模
HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly Supervised Relation Extraction
远程监督假设任何包含相同实体对的句子都反映了相同的关系。先前的远程监督关系抽取(DSRE)任务通常独立地关注sentence-level或bag-level去噪技术
102 0
|
9月前
|
机器学习/深度学习 编解码 数据可视化
Speech Emotion Recognition With Local-Global aware Deep Representation Learning论文解读
语音情感识别(SER)通过从语音信号中推断人的情绪和情感状态,在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息,但我们探索如何从动态时间尺度中建模语音情绪的时间模式。
85 0
|
9月前
|
机器学习/深度学习 PyTorch 测试技术
SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation 论文解读
我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中,我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。
220 0
|
11月前
|
机器学习/深度学习 存储 自然语言处理
【论文解读】A review on the attention mechanism of deep learning
注意力已经成为深度学习中最重要的概念之一。本文旨在对近年来提出的最新注意力模型作概述。我们建立了一个较为通用的模型,此外根据四个标准即注意力的柔软性、输入特征的形式、输入表示和输出表示来对当前注意力模型进行分类。最后讨论了注意力在深度学习可解释上的作用。
237 0
|
11月前
|
数据挖掘
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation-ppt版学习笔记
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation-ppt版学习笔记
93 0
|
机器学习/深度学习 存储 分布式计算
【深度学习系列】(二)--An overview of gradient descent optimization algorithms
【深度学习系列】(二)--An overview of gradient descent optimization algorithms
87 0
【深度学习系列】(二)--An overview of gradient descent optimization algorithms
|
机器学习/深度学习 Ubuntu PyTorch
RoNIN: Robust Neural Inertial Navigation预训练模型测试
RoNIN: Robust Neural Inertial Navigation预训练模型测试
114 0
RoNIN: Robust Neural Inertial Navigation预训练模型测试
|
机器学习/深度学习 资源调度 算法框架/工具
翻译:Deep Residual Learning for Image Recognition
翻译:Deep Residual Learning for Image Recognition
102 0