2019年深度学习Top 5研究论文,一文Get硬核干货:XLNet、网络剪枝、StarGAN

简介: 近日,在人工智能领域拥有超过10年经验的Rubik’s Code公司评选出了2019年深度学习领域Top5论文。在2019年岁末,这些研究论文对于我们洞见深度学习的前沿进展及发展趋势具有重要的意义。

微信图片_20220107183922.jpg


对于整个深度学习和机器学习来说,今年是重要的一年。如今,连面向婴儿的神经网络的书籍都已经面世。不过,除了读书之外,在这个疯狂的世界中保持最新状态的最佳方法是阅读论文。拥有超过10年的人工智能和软件开发经验的Rubik’s Code公司为我们重点介绍了今年对我们产生重大影响的5篇论文。


XLNet:用于语言理解的广义自回归预训练


微信图片_20220107183919.png


论文链接:


https://arxiv.org/pdf/1906.08237.pdf


代码资源:


https://github.com/zihangdai/xlnet?source=post_page-----1ec363f29e85----------------------


从去年开始,NLP领域就一直受BERT的统治,但在2019年,我们迎来了新王者XLNet。来自CMU和Google的研究人员开发的新架构在20个任务上的表现超过BERT。问题是,BERT的训练是在有损坏的输入上进行的,这会导致预训练与精调之间的差异。简而言之,输入token序列中的特定数量的token将被特殊符号替换,再训练BERT使用双向上下文进行重构,从损坏的输入中恢复原始token。


微信图片_20220107183916.png


XLNet也使用这种自动编码方法,但是结合了自动回归语言建模。这种方法利用上下文来预测下一个单词,但仅限于两个方向,可以向前或向后。也就是说,如果我们尝试预测句子中的某个单词(token),会查看该词之前或之后的词以对其进行预测。最著名的自回归语言模型是Transformer。XLNet使用更高级的Transformer-XL体系结构。

 

本质上讲,自回归语言建模和BERT相对于其他语言占据优势,而XLNet则在兼顾两者优势的同时,巧妙地避免了自身的劣势。和BERT一样,XLNet利用双向上下文预测,即预测时考虑token前后的单词。另一方面,作为自回归语言模型,XLNet不依赖于输入数据损坏,因此不存在BERT的局限性。


基于可转换架构搜索的网络剪枝


微信图片_20220107183913.png


论文链接:


https://arxiv.org/pdf/1905.09717.pdf


代码资源:


https://github.com/D-X-Y/NAS-Projects?source=post_page-----1ec363f29e85----------------------


网络剪枝是深度学习的一个有趣的领域。其思路是分析神经网络的结构,并在其中找到“死角”和有用的参数。然后按照估计好的深度和宽度建立一种新架构,称为剪枝网络。然后,可以将来自原网络中的有用参数传输到新网络。这种方式对于深度卷积神经网络(CNN)特别有用,如果在嵌入式系统中进行部署,网络规模可能会变得很大且不切实际。在前一种情况下,网络剪枝可以减少超参数数量,降低CNN的计算成本。

 

传统的网络剪枝方法如下所示:


微信图片_20220107183911.png


本文实际上建议使用的方法如下图所示:


微信图片_20220107183909.png


本文实际上一开始就进行了大型网络的训练。然后通过传输体系结构搜索(TAS)提出了搜索小型网络的深度和宽度的建议。最后,使用知识提炼将大型网络中的知识转移到小型网络中。


Demucs:一个面向音乐源的深度提取器


微信图片_20220107183906.jpg


论文链接:


https://arxiv.org/pdf/1909.01174v1.pdf


代码资源:


https://github.com/facebookresearch/demucs


在录制某些歌曲时,每种乐器都分别录制到单独的音轨或stem中。之后在混音和母带阶段,这些词干被合并在一起,生成歌曲。本文的目的是找到这一过程的逆向过程的方法,也就是说要从完成的歌曲中提取每个单独的stem。这个问题的灵感源自所谓“鸡尾酒会效应”,是说人脑可以从一个嘈杂的聊天室的环境中将单独对话分离出来,并专注于这个特定的对话,自带降噪效果。


本文提出的体系架构是SING神经网络体系结构和Wave-U-Net的思想的结合。前者用于符号到乐器的音乐合成,而后者是从混音中提取stem的方法之一。本质上是LSTM、卷积层与U-Net架构的结合。其中卷积层负责体系结构的编码,LSTM层用于解码。为了提高模型性能,本文中的架构不使用批量归一化层。


StarGAN v2:多域的多样化图像合成


微信图片_20220107183903.jpg


论文链接:


https://arxiv.org/pdf/1912.01865v1.pdf


代码资源:


https://github.com/clovaai/stargan-v2


我们爱GANs!特别是在图像创建和处理方面。这个领域中一个非常有趣的问题就是所谓的“图像到图像转换问题”,我们希望将特征从一个图像域转移到另一个图像域(这里的“图像域”代表可以归类为视觉上独特的类别的一组图像)。我们喜欢CycleGAN和StarGAN等旨在解决此问题的解决方案,因此您可以想象几天前看到StarGAN v2论文时我们有多么兴奋。


本文还讨论了另一个问题——域的可伸缩性。这意味着它可以同时解决多个图像域的问题。本质上,这个架构依赖于StarGAN早期版本的成功,并为其添加了样式层。它由四个模块组成:第一个模块是生成器,它负责将输入图像转换为反映域特定样式的输出图像;接下来是映射网络转换器(Mapping Network Transformer),它将潜在代码转换为多个域的样式代码;第三个是样式编码器,它提取图像的样式并将其提供给生成器;最后,判别器可以从多个域中区分真实图像和伪图像。


深度感知视频插帧


微信图片_20220107183859.jpg


论文链接:


https://arxiv.org/pdf/1904.00830


代码资源:


https://github.com/baowenbo/DAIN?source=post_page-----1ec363f29e85----------------------


视频帧合成是信号处理领域的一个有趣的分支。通常,这都是关于在现有视频中合成视频帧的。如果在视频帧之间完成操作,则称为内插(interpolation);而在视频帧之后进行此操作,则称为外推(extrapolation)。视频帧内插是一个长期存在的课题,并且已经在文献中进行了广泛的研究。这是一篇利用了深度学习技术的有趣论文。通常,由于较大的物体运动或遮挡,插值的质量会降低。在本文中,作者使用深度学习通过探索深度信息来检测遮挡。


他们创建了称为“深度感知视频帧内插”(Depth-Aware video frame INterpolation,DAIN)的架构。该模型利用深度图、局部插值核和上下文特征来生成视频帧。本质上,DAIN是基于光流和局部插值核,通过融合输入帧、深度图和上下文特征来构造输出帧。


在这些文章中,我们有机会看到一些有趣的论文和在深度学习领域取得的进步。这一领域在不断发展,我们预计2020年会更有趣。


参考链接:


https://rubikscode.net/2019/12/16/top-5-deep-learning-research-papers-in-2019/

相关文章
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络:从理论到实践
【10月更文挑战第35天】在人工智能的浪潮中,深度学习技术以其强大的数据处理能力成为科技界的宠儿。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,在图像识别和视频分析等领域展现出了惊人的潜力。本文将深入浅出地介绍CNN的工作原理,并结合实际代码示例,带领读者从零开始构建一个简单的CNN模型,探索其在图像分类任务中的应用。通过本文,读者不仅能够理解CNN背后的数学原理,还能学会如何利用现代深度学习框架实现自己的CNN模型。
|
1天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第36天】探索卷积神经网络(CNN)的神秘面纱,揭示其在图像识别领域的威力。本文将带你了解CNN的核心概念,并通过实际代码示例,展示如何构建和训练一个简单的CNN模型。无论你是深度学习的初学者还是希望深化理解,这篇文章都将为你提供有价值的见解。
|
14天前
|
机器学习/深度学习 搜索推荐 安全
深度学习之社交网络中的社区检测
在社交网络分析中,社区检测是一项核心任务,旨在将网络中的节点(用户)划分为具有高内部连接密度且相对独立的子群。基于深度学习的社区检测方法,通过捕获复杂的网络结构信息和节点特征,在传统方法基础上实现了更准确、更具鲁棒性的社区划分。
27 7
|
15天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
56 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
2天前
|
机器学习/深度学习 人工智能 自动驾驶
深入解析深度学习中的卷积神经网络(CNN)
深入解析深度学习中的卷积神经网络(CNN)
9 0
|
4天前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习的奇迹:如何用神经网络识别图像
【10月更文挑战第33天】在这篇文章中,我们将探索深度学习的奇妙世界,特别是卷积神经网络(CNN)在图像识别中的应用。我们将通过一个简单的代码示例,展示如何使用Python和Keras库构建一个能够识别手写数字的神经网络。这不仅是对深度学习概念的直观介绍,也是对技术实践的一次尝试。让我们一起踏上这段探索之旅,看看数据、模型和代码是如何交织在一起,创造出令人惊叹的结果。
12 0
|
5天前
|
机器学习/深度学习 人工智能 TensorFlow
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第32天】本文将介绍深度学习中的一个重要分支——卷积神经网络(CNN),以及其在图像识别领域的应用。我们将通过一个简单的代码示例,展示如何使用Python和TensorFlow库构建一个基本的CNN模型,并对其进行训练和测试。
|
11天前
|
机器学习/深度学习 自然语言处理 TensorFlow
深度学习中的卷积神经网络(CNN)及其应用
【10月更文挑战第26天】在这篇文章中,我们将深入探讨卷积神经网络(CNN)的基本原理、结构和应用。CNN是深度学习领域的一个重要分支,广泛应用于图像识别、语音处理等领域。我们将通过代码示例和实际应用案例,帮助读者更好地理解CNN的概念和应用。
|
13天前
|
机器学习/深度学习 算法 计算机视觉
深度学习与生活:如何利用卷积神经网络识别日常物品
【10月更文挑战第24天】在这篇文章中,我们将探索深度学习如何从理论走向实践,特别是卷积神经网络(CNN)在图像识别中的应用。通过一个简单的示例,我们将了解如何使用CNN来识别日常生活中的物体,如水果和家具。这不仅是对深度学习概念的一次直观体验,也是对技术如何融入日常生活的一次深刻反思。文章将引导读者思考技术背后的哲理,以及它如何影响我们的生活和思维方式。
|
8天前
|
机器学习/深度学习 人工智能 监控
深度学习在图像识别中的应用与挑战
本文探讨了深度学习技术在图像识别领域的应用,并分析了当前面临的主要挑战。随着卷积神经网络(CNN)的发展,图像识别的准确性和效率得到了显著提升。然而,数据不平衡、模型泛化能力、计算资源消耗等问题仍然是制约深度学习在图像识别领域进一步发展的关键因素。本文将详细介绍深度学习在图像识别中的应用案例,并讨论解决现有挑战的可能策略。
下一篇
无影云桌面