SalGAN: Visual saliency prediction with generative adversarial networks

简介: SalGAN: Visual saliency prediction with generative adversarial networks2017-03-17   摘要:本文引入了对抗网络的对抗训练机制来进行显著性物体的预测。

 

SalGAN: Visual saliency prediction with generative adversarial networks

2017-03-17

 

  摘要:本文引入了对抗网络的对抗训练机制来进行显著性物体的预测。虽然我们老板很不喜欢显著性,但是,做显著性检测的人还是会说:这是有意义的。如本文说的:恩,显著性可以作为 soft-attention,来引导其他计算机视觉任务的进行,也可以直接引导 marketing 领域。

  本文区别于其他方法最显著的地方在于:the usage of generatvie adversarial networks。本文将训练分为两个阶段:

    1. 产生器产生一个服从训练集合的伪造的样本;

    2. 判别器就是用于判断给定的样本是 真实的 还是 伪造的。

  本文中谈到的 data distribution 意思是:实际的图像 和 对应的显著性图。

    本文总结的贡献点是:

    1. 探索了 GAN 在显著性物体检测上的应用,在某些数据集上取得了不错的效果;

    2. 在训练 DCNN 时,应用 二元交叉熵损失函数 和 下采样显著性图 是可以提升效果的。

 

  本文的网络框架设计如图所示:

  

 

  网络结构分析:

  1. 产生器:
    Convolutional encoder-decoder architecture 

  2. 判别器:

    就是一个 CNN 结构。

  

  训练(Training):

  1. Content Loss 

    由于 产生器 部分的输出是 saliency map,要计算的这部分就是:输出的 saliency map 和 gt saliency map 之间均方差 loss 。 

    用的就是 两个 map 之间的欧式距离:

    

    本文中 MSE 就是用来作为 baseline 的,因为大部分显著性检测的方法都是基于这个 loss function。GT saliency maps 被归一化到 0-1 之间。

    这里用到了 二元交叉熵损失函数:

    

  2. 对抗损失

    关于 GAN 这里就不在介绍了,那么显著性检测和 gan 有什么不同呢?

    1. 首先,目标是拟合一个 决策函数 来产生实际的 saliency values,而不是从随机的 noise 中得到 真实的图像;

        这样的话,输入给产生器的东西就不再是 随机的 noise,而是一张图像;

    2. 其次,显著性所对应的图 是衡量质量的;

        所以我们将图像和 saliency map 作为输入给产生器

    3. 最后,在 GAN 产生图像的时候,没有 gt 进行对比,属于无监督学习;

        但是,在显著性检测的时候,我们是有现有的 gt 作为对比的。

    

  我们发现产生器函数更新的时候,我们发现 利用判别器的loss 和 对比gt得到的交叉熵损失函数,可以显著地提升对抗训练的稳定性和收敛速度。

  最终的 loss function 可以定义为:

  

  


  实验结果:

    

 

 

相关文章
|
机器学习/深度学习 搜索推荐 算法
Learning Disentangled Representations for Recommendation | NIPS 2019 论文解读
近年来随着深度学习的发展,推荐系统大量使用用户行为数据来构建用户/商品表征,并以此来构建召回、排序、重排等推荐系统中的标准模块。普通算法得到的用户商品表征本身,并不具备可解释性,而往往只能提供用户-商品之间的attention分作为商品粒度的用户兴趣。我们在这篇文章中,想仅通过用户行为,学习到本身就具备一定可解释性的解离化的用户商品表征,并试图利用这样的商品表征完成单语义可控的推荐任务。
23676 0
Learning Disentangled Representations for Recommendation | NIPS 2019 论文解读
|
8月前
|
机器学习/深度学习 算法
Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter论文解读
该论文针对Twitter网站的信息进行关键词提取,因为Twitter网站文章/对话长度受到限制,现有的方法通常效果会急剧下降。作者使用循环神经网络(recurrent neural network,RNN)来解决这一问题,相对于其他方法取得了更好的效果。
60 0
|
机器学习/深度学习 自然语言处理 算法
【文本分类】Convolutional Neural Networks for Sentence Classification
【文本分类】Convolutional Neural Networks for Sentence Classification
【文本分类】Convolutional Neural Networks for Sentence Classification
|
机器学习/深度学习 存储 人工智能
【文本分类】Recurrent Convolutional Neural Networks for Text Classification
【文本分类】Recurrent Convolutional Neural Networks for Text Classification
【文本分类】Recurrent Convolutional Neural Networks for Text Classification
|
机器学习/深度学习 大数据
【文本分类】Deep Pyramid Convolutional Neural Networks for Text Categorization
【文本分类】Deep Pyramid Convolutional Neural Networks for Text Categorization
107 0
【文本分类】Deep Pyramid Convolutional Neural Networks for Text Categorization
|
机器学习/深度学习 数据挖掘 计算机视觉
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章(一)
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章(一)
|
机器学习/深度学习 数据挖掘 Java
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章(二)
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章
|
机器学习/深度学习 数据挖掘 计算机视觉
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章(三)
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章
|
机器学习/深度学习 自然语言处理
Understanding and Improving Layer Normalization | NIPS 2019 论文解读
作者们认为,前向归一化并非LN起作用的唯一因素,均值和方差也是重要原因。它们改变了后向梯度的中心和范围。同时,作者还发现,LN的参数,包括bias和gain,并非总是能够提升模型表现,甚至它们可能会增加过拟合的风险。因此,为了解决这个问题,作者们提出了自适应的LN(简称AdaNorm)。AdaNorm将LN中的bias和gain替换成线性映射函数的输出。这个函数能够自适应地根据不同的输入调整权重。作者们在七个数据集上做了实验都表明AdaNorm能够取得更好的效果。同时可以看到,AdaNorm缓解了过拟合的问题,并且给训练带来更好的收敛效果。
18211 0
Understanding and Improving Layer Normalization | NIPS 2019 论文解读

热门文章

最新文章