深到骨子里的自律,是每周坚持刷几篇最新论文 | PaperDaily #10

本文涉及的产品
图片翻译,图片翻译 100张
语种识别,语种识别 100万字符
文档翻译,文档翻译 1千页
简介: [ 自然语言处理 ] Don't Decay the Learning Rate, Increase the Batch Size @RamonYeung 推荐 埋下伏笔:来自 Google Brain 的论文。


[ 自然语言处理 ]


Don't Decay the Learning Rate, Increase the Batch Size
@RamonYeung 推荐
9

埋下伏笔:来自 Google Brain 的论文。

文章主要讲明白四点:

1, 主动降低学习率(Decaying the Learning Rate)是模拟退火,因为降低学习率导致 SGD 训练时,随机波动的幅度也减少了;

2,我们提出一个替代方案:不降低学习率,在训练时提高 batch_size。在训练相同 #epochs 下,这种策略在测试集上达到了几乎相同的模型性能,但是显着减少了参数更新的次数。我们的方案不需要通常的训练做法(Fine-tuning)。当需要将学习率降低为原来的 1/α 时,我们将 batch_size 改为原来的 α 倍。

3, 参数更新次数可以进一步缩短:

  • 提高学习率 ϵ,同时按 B∝ϵ 的方式提高 batch_size;
  • 提高动量系数(Momentum Coefficient)m, 同时按 B∝1/(1−m) 的方式提高 batch_size。

4, 结合这些策略,我们在 ImageNet 上对 Inception-ResNet-V2 进行 2500 次参数更新,达到 77% 的验证集精度。为了实现这一点, 训练时 batch_size=65536。相比之下,Goyal 等人(2017)需要 14000 个参数更新, 使用 ResNet-50 达到 76% 的验证精度,batch_size=8192。

前提是:你有钱买更多的 GPUs 装入更大的 batch_size。

论文链接
http://www.paperweekly.site/papers/1071


Memory-augmented Neural Machine Translation
@yuer3677 推荐
8

该篇文章将传统 SMT 的词对应关系以 Memory 的形式组合到 NMT 上,结合了两者的优势。一方面增加了 rare word 的出现概率,提升了翻译 performance;另一方面提供了一种解决 unknown words 的思路。该方法尤其在小数据集上效果明显。

论文链接
http://www.paperweekly.site/papers/1037


Sequence-to-Dependency Neural Machine Translation
@jerryshi 推荐
7

1, 文章有什么贡献? 提出了一种新的 Sequence-to-Dependency Neural Machine Translation (SD-NMT) 的方法,来将目标语言句法知识利用进了 NMT 系统,相比起没有使用句法知识的基准 NMT 系统,性能得到了相对的提高。
2, 研究的问题有何价值?目前的 NMT 系统主要是直接用线性 RNN 来进行 Seq2Seq,但是这样的系统对于捕捉不明显的长距离词的依存还是有很大难度的。因此在解码的时候,将句法知识考虑进解码器中后,可以提高翻译结果语法的正确性,并且也可以利用局部依存信息来生成之后的词语。
3, 研究问题有什么挑战?一,如何利用 RNN 来构建句法结构;二,如何在一个神经网络中,有效地同时进行词语生成,还有句法结构的构建;三,如何有效地利用目标语言的句法背景,来帮助词语的生成。

4. 本文的解决思路?

利用了两个 RNN 网络,Action RNN 和 Word RNN,分别进行词语生成和句法结构的构建。Action RNN 利用了 transition-based dependency parsing(基于转换的依存句法分析)中的 arc-standard shift-reduce algorithm 算法,来生成构建所需依存结构的动作。而同时因为两个 RNN 生成的的序列长度不一致,所以 Word RNN 利用了些技巧,使得它能够参考 Action RNN 的结果输出词语,或者保持不变以和 Action RNN 的时序保持一致。

通过定义生成依存结构时的栈顶部两个词语,最左和最右修饰语的一元和二元语言特征,生成相对当前词汇的局部依存背景。之后将这个背景与 Word RNN 的输出结合起来,帮组生成新的词汇。

论文链接
http://www.paperweekly.site/papers/994


[ 计算机视觉 ]


Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification
@LUOHAO 推荐
6

  1. 文章提出了一种新的度量学习方法 Margin sample mining loss - MSML。Triplet loss 是一种非常常用的度量学习方法,Quadruplet loss 和 Triplet hard batch loss(TriHard loss)是它的两个改进版本,而 MSML 是吸收了 Quadruplet loss 和 TriHard loss 两个优点的综合体,实验证明 MSML 能够在 person ReID 的公开数据集上取得很好的结果;
  2. 这个方法不止可以应用于 person ReID,而是一种通用的度量学习方法,进一步可以延伸到图像检索等相关的各个领域。


论文链接
http://www.paperweekly.site/papers/1069


Fader Networks: Manipulating Images by Sliding Attributes
@Gapeng 推荐
5

跟其他 GAN 方法不同,Fader nets 通过在隐层编码引入对抗来实现属性相关编码和属性无关编码的分离。D 尝试从 Encoder 的编码中预测出属性,而 Encoder 则尽量学习不带属性的编码,以使 D 的预测失效。Decoder 接收 Encoder 的编码以及额外的属性作为输入,以重构/修改图像。文章的效果非常好,目前复现存在难度,过段时间作者会开源代码。

论文链接
http://www.paperweekly.site/papers/1009


Scale-adaptive Convolutions for Scene Parsing
@lisabug 推荐
4
ICCV'17 Poster。 简而言之,文章提出了一个 scale-adaptive 的 dilation conv层。

  1. 与 fixed coefficient 的 dilation conv 相比,本文提出的 scale-adaptive conv 层通过前一层的 feature 对于每一个位置预测一个 variant coefficient。对于大物体,我们应该需要更大的感受野,因此得到一个大的系数;对于小物体,我们应该关注细节而忽略背景,则缩小感受野更加强调细节的 feature。可以参考文章图 3 理解;
  2. dilation 系数非整数时,使用常见的 STN 中的 bilinear interpolation 做到可以 e2e 的学习;
  3. 合理的初始化系数回归层的参数,并在训练时进行对其 clip,使得 dilation 系数位于一个合理的范围内;
  4. 文章提到在高层使用效果较好;
  5. 即插即用,较小的额外参数和计算开销。相比 baseline 不加多尺度训练的情况下可以在 cityscape 上涨 2 个多点。


论文链接
http://www.paperweekly.site/papers/1056


[ 机器学习 ]


Paraphrase Generation with Deep Reinforcement Learning
@paperweekly 推荐
3
用增强学习来解决端到端 paraphrase 生成问题,取得了不错的效果。
论文链接
http://www.paperweekly.site/papers/1048


A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs
@AkiyamaYukari 推荐
2
一种新的概率生成模型(probabilistic generative model )被提出了,而且在一定任务上表现超过了现有的神经网络。
论文链接
http://www.paperweekly.site/papers/1005


Reparameterizing the Birkhoff Polytope for Variational Permutation Inference
@tmasada 推荐
1
This paper proposes new probability distributions on permutations. The variational inference is performed by using reparameterization trick.
论文链接
http://www.paperweekly.site/papers/1007

原文发布时间为:2017-11-6
本文作者:让你更懂AI的
本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

相关文章
|
8月前
|
Java
JavaOOP考前复习重点
JavaOOP考前复习重点
33 0
|
9月前
|
前端开发 Java 数据库
MVC架构学习归纳总结(小傅哥の码场 学习专栏)
MVC架构学习归纳总结(小傅哥の码场 学习专栏)
51 0
|
算法 程序员
趣学算法【第一章:算法之美】感悟(上)
趣学算法【第一章:算法之美】感悟(上)
104 0
|
算法
趣学算法【第一章:算法之美】感悟(下)
趣学算法【第一章:算法之美】感悟(下)
|
安全 前端开发 Java
面试100人后的经验总结,看完这篇让你至少涨薪2000
相信大家可能都看完了上篇文章了,也可能拿到了很多面试通知,接下来就是重中之重,面试!在楼主职场中也陆续面了大概100人左右,由此楼主总结了几点需要大家注意
145 0
面试100人后的经验总结,看完这篇让你至少涨薪2000
|
机器学习/深度学习 人工智能 数据可视化
CVPR论文复现争议后续:华人一作苦战两月给出有态度的分析结果
今年 9 月,机器之心报道了「CVPR 2018 论文复现争议」事件,引起了极大的关注,当时作者表示自己也在仔细检查论文。今天,经过两个多月的苦战,一作(华人,当时文章未特意指出担心带偏节奏)给出了一份小编觉得很有态度的结果,并在结语中分享了自己两个月来的感受,希望能对读者有所启发。「让我们继续探索、研究、分享吧!」
314 0
CVPR论文复现争议后续:华人一作苦战两月给出有态度的分析结果
|
前端开发 小程序 API
学习感想
通过阿里云后台的学习,我掌握了一些前后台互动的相关知识,很感谢阿里巴巴能够给我们学生提供这些资源服务,最后期待阿里云服务能够给我带来更多惊喜。
|
机器学习/深度学习
神经网络来袭!划重点:60分钟入门,这是最深入浅出的一次
现在对PyTorch的自动求导机制(autograd)有所了解,nn 依赖autograd来定义模型和区分它们。一个nn.Module包括layers和返回输出值的forword(input)方法。
961 0
【杂谈】您是以什么姿态来参与讨论、回帖的?
大概有三种姿态吧。1、大师级      总是说一些很玄的话,比如“是狗摇尾巴,还是你摇狗尾巴?”,让人听了就有一种想揍人的冲动,呵呵。2、老师批卷子型。      你这个不对,违反了范式;这个也不对,继承层数太多了;这个还是不对,组合优于继承,你要用组合;这个,不够灵活,你要能够方便的扩展;这都什么年代了你还面向过程呢?      什么你问我这个要怎么做,你不会自己去想呀,你不会自己去学习吗?难道连加减乘除还要给你讲一遍吗?这些都是基础知识,自己弄去,我够告诉你要看什么了,已经很够意思了,难道你还想让我给你完全做出来,你给我发工资吗?3、朋友帮忙型。
735 0

热门文章

最新文章

相关实验场景

更多