2019年深度学习Top 5研究论文,一文Get硬核干货:XLNet、网络剪枝、StarGAN

简介: 近日,在人工智能领域拥有超过10年经验的Rubik’s Code公司评选出了2019年深度学习领域Top5论文。在2019年岁末,这些研究论文对于我们洞见深度学习的前沿进展及发展趋势具有重要的意义。

微信图片_20220107183922.jpg


对于整个深度学习和机器学习来说,今年是重要的一年。如今,连面向婴儿的神经网络的书籍都已经面世。不过,除了读书之外,在这个疯狂的世界中保持最新状态的最佳方法是阅读论文。拥有超过10年的人工智能和软件开发经验的Rubik’s Code公司为我们重点介绍了今年对我们产生重大影响的5篇论文。


XLNet:用于语言理解的广义自回归预训练


微信图片_20220107183919.png


论文链接:


https://arxiv.org/pdf/1906.08237.pdf


代码资源:


https://github.com/zihangdai/xlnet?source=post_page-----1ec363f29e85----------------------


从去年开始,NLP领域就一直受BERT的统治,但在2019年,我们迎来了新王者XLNet。来自CMU和Google的研究人员开发的新架构在20个任务上的表现超过BERT。问题是,BERT的训练是在有损坏的输入上进行的,这会导致预训练与精调之间的差异。简而言之,输入token序列中的特定数量的token将被特殊符号替换,再训练BERT使用双向上下文进行重构,从损坏的输入中恢复原始token。


微信图片_20220107183916.png


XLNet也使用这种自动编码方法,但是结合了自动回归语言建模。这种方法利用上下文来预测下一个单词,但仅限于两个方向,可以向前或向后。也就是说,如果我们尝试预测句子中的某个单词(token),会查看该词之前或之后的词以对其进行预测。最著名的自回归语言模型是Transformer。XLNet使用更高级的Transformer-XL体系结构。

 

本质上讲,自回归语言建模和BERT相对于其他语言占据优势,而XLNet则在兼顾两者优势的同时,巧妙地避免了自身的劣势。和BERT一样,XLNet利用双向上下文预测,即预测时考虑token前后的单词。另一方面,作为自回归语言模型,XLNet不依赖于输入数据损坏,因此不存在BERT的局限性。


基于可转换架构搜索的网络剪枝


微信图片_20220107183913.png


论文链接:


https://arxiv.org/pdf/1905.09717.pdf


代码资源:


https://github.com/D-X-Y/NAS-Projects?source=post_page-----1ec363f29e85----------------------


网络剪枝是深度学习的一个有趣的领域。其思路是分析神经网络的结构,并在其中找到“死角”和有用的参数。然后按照估计好的深度和宽度建立一种新架构,称为剪枝网络。然后,可以将来自原网络中的有用参数传输到新网络。这种方式对于深度卷积神经网络(CNN)特别有用,如果在嵌入式系统中进行部署,网络规模可能会变得很大且不切实际。在前一种情况下,网络剪枝可以减少超参数数量,降低CNN的计算成本。

 

传统的网络剪枝方法如下所示:


微信图片_20220107183911.png


本文实际上建议使用的方法如下图所示:


微信图片_20220107183909.png


本文实际上一开始就进行了大型网络的训练。然后通过传输体系结构搜索(TAS)提出了搜索小型网络的深度和宽度的建议。最后,使用知识提炼将大型网络中的知识转移到小型网络中。


Demucs:一个面向音乐源的深度提取器


微信图片_20220107183906.jpg


论文链接:


https://arxiv.org/pdf/1909.01174v1.pdf


代码资源:


https://github.com/facebookresearch/demucs


在录制某些歌曲时,每种乐器都分别录制到单独的音轨或stem中。之后在混音和母带阶段,这些词干被合并在一起,生成歌曲。本文的目的是找到这一过程的逆向过程的方法,也就是说要从完成的歌曲中提取每个单独的stem。这个问题的灵感源自所谓“鸡尾酒会效应”,是说人脑可以从一个嘈杂的聊天室的环境中将单独对话分离出来,并专注于这个特定的对话,自带降噪效果。


本文提出的体系架构是SING神经网络体系结构和Wave-U-Net的思想的结合。前者用于符号到乐器的音乐合成,而后者是从混音中提取stem的方法之一。本质上是LSTM、卷积层与U-Net架构的结合。其中卷积层负责体系结构的编码,LSTM层用于解码。为了提高模型性能,本文中的架构不使用批量归一化层。


StarGAN v2:多域的多样化图像合成


微信图片_20220107183903.jpg


论文链接:


https://arxiv.org/pdf/1912.01865v1.pdf


代码资源:


https://github.com/clovaai/stargan-v2


我们爱GANs!特别是在图像创建和处理方面。这个领域中一个非常有趣的问题就是所谓的“图像到图像转换问题”,我们希望将特征从一个图像域转移到另一个图像域(这里的“图像域”代表可以归类为视觉上独特的类别的一组图像)。我们喜欢CycleGAN和StarGAN等旨在解决此问题的解决方案,因此您可以想象几天前看到StarGAN v2论文时我们有多么兴奋。


本文还讨论了另一个问题——域的可伸缩性。这意味着它可以同时解决多个图像域的问题。本质上,这个架构依赖于StarGAN早期版本的成功,并为其添加了样式层。它由四个模块组成:第一个模块是生成器,它负责将输入图像转换为反映域特定样式的输出图像;接下来是映射网络转换器(Mapping Network Transformer),它将潜在代码转换为多个域的样式代码;第三个是样式编码器,它提取图像的样式并将其提供给生成器;最后,判别器可以从多个域中区分真实图像和伪图像。


深度感知视频插帧


微信图片_20220107183859.jpg


论文链接:


https://arxiv.org/pdf/1904.00830


代码资源:


https://github.com/baowenbo/DAIN?source=post_page-----1ec363f29e85----------------------


视频帧合成是信号处理领域的一个有趣的分支。通常,这都是关于在现有视频中合成视频帧的。如果在视频帧之间完成操作,则称为内插(interpolation);而在视频帧之后进行此操作,则称为外推(extrapolation)。视频帧内插是一个长期存在的课题,并且已经在文献中进行了广泛的研究。这是一篇利用了深度学习技术的有趣论文。通常,由于较大的物体运动或遮挡,插值的质量会降低。在本文中,作者使用深度学习通过探索深度信息来检测遮挡。


他们创建了称为“深度感知视频帧内插”(Depth-Aware video frame INterpolation,DAIN)的架构。该模型利用深度图、局部插值核和上下文特征来生成视频帧。本质上,DAIN是基于光流和局部插值核,通过融合输入帧、深度图和上下文特征来构造输出帧。


在这些文章中,我们有机会看到一些有趣的论文和在深度学习领域取得的进步。这一领域在不断发展,我们预计2020年会更有趣。


参考链接:


https://rubikscode.net/2019/12/16/top-5-deep-learning-research-papers-in-2019/

相关文章
|
7天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
23 4
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
29天前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
257 55
|
1月前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
176 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
26天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于yolov4深度学习网络的公共场所人流密度检测系统matlab仿真,带GUI界面
本项目使用 MATLAB 2022a 进行 YOLOv4 算法仿真,实现公共场所人流密度检测。通过卷积神经网络提取图像特征,将图像划分为多个网格进行目标检测和识别,最终计算人流密度。核心程序包括图像和视频读取、处理和显示功能。仿真结果展示了算法的有效性和准确性。
61 31
|
28天前
|
机器学习/深度学习 算法 PyTorch
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
本文探讨了图神经网络(GNN)与大型语言模型(LLM)结合在知识图谱问答中的应用。研究首先基于G-Retriever构建了探索性模型,然后深入分析了GNN-RAG架构,通过敏感性研究和架构改进,显著提升了模型的推理能力和答案质量。实验结果表明,改进后的模型在多个评估指标上取得了显著提升,特别是在精确率和召回率方面。最后,文章提出了反思机制和教师网络的概念,进一步增强了模型的推理能力。
55 4
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
|
1月前
|
机器学习/深度学习 算法 信息无障碍
基于GoogleNet深度学习网络的手语识别算法matlab仿真
本项目展示了基于GoogleNet的深度学习手语识别算法,使用Matlab2022a实现。通过卷积神经网络(CNN)识别手语手势,如"How are you"、"I am fine"、"I love you"等。核心在于Inception模块,通过多尺度处理和1x1卷积减少计算量,提高效率。项目附带完整代码及操作视频。
|
1月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于深度学习网络的宝石类型识别算法matlab仿真
本项目利用GoogLeNet深度学习网络进行宝石类型识别,实验包括收集多类宝石图像数据集并按7:1:2比例划分。使用Matlab2022a实现算法,提供含中文注释的完整代码及操作视频。GoogLeNet通过其独特的Inception模块,结合数据增强、学习率调整和正则化等优化手段,有效提升了宝石识别的准确性和效率。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解深度学习中的卷积神经网络(CNN)##
在当今的人工智能领域,深度学习已成为推动技术革新的核心力量之一。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,因其在图像和视频处理方面的卓越性能而备受关注。本文旨在深入探讨CNN的基本原理、结构及其在实际应用中的表现,为读者提供一个全面了解CNN的窗口。 ##
|
1月前
|
机器学习/深度学习 人工智能 算法
深度学习入门:用Python构建你的第一个神经网络
在人工智能的海洋中,深度学习是那艘能够带你远航的船。本文将作为你的航标,引导你搭建第一个神经网络模型,让你领略深度学习的魅力。通过简单直观的语言和实例,我们将一起探索隐藏在数据背后的模式,体验从零开始创造智能系统的快感。准备好了吗?让我们启航吧!
84 3
|
1月前
|
机器学习/深度学习 传感器 数据采集
深度学习在故障检测中的应用:从理论到实践
深度学习在故障检测中的应用:从理论到实践
139 5