2019年深度学习Top 5研究论文,一文Get硬核干货:XLNet、网络剪枝、StarGAN

简介: 近日,在人工智能领域拥有超过10年经验的Rubik’s Code公司评选出了2019年深度学习领域Top5论文。在2019年岁末,这些研究论文对于我们洞见深度学习的前沿进展及发展趋势具有重要的意义。

微信图片_20220107183922.jpg


对于整个深度学习和机器学习来说,今年是重要的一年。如今,连面向婴儿的神经网络的书籍都已经面世。不过,除了读书之外,在这个疯狂的世界中保持最新状态的最佳方法是阅读论文。拥有超过10年的人工智能和软件开发经验的Rubik’s Code公司为我们重点介绍了今年对我们产生重大影响的5篇论文。


XLNet:用于语言理解的广义自回归预训练


微信图片_20220107183919.png


论文链接:


https://arxiv.org/pdf/1906.08237.pdf


代码资源:


https://github.com/zihangdai/xlnet?source=post_page-----1ec363f29e85----------------------


从去年开始,NLP领域就一直受BERT的统治,但在2019年,我们迎来了新王者XLNet。来自CMU和Google的研究人员开发的新架构在20个任务上的表现超过BERT。问题是,BERT的训练是在有损坏的输入上进行的,这会导致预训练与精调之间的差异。简而言之,输入token序列中的特定数量的token将被特殊符号替换,再训练BERT使用双向上下文进行重构,从损坏的输入中恢复原始token。


微信图片_20220107183916.png


XLNet也使用这种自动编码方法,但是结合了自动回归语言建模。这种方法利用上下文来预测下一个单词,但仅限于两个方向,可以向前或向后。也就是说,如果我们尝试预测句子中的某个单词(token),会查看该词之前或之后的词以对其进行预测。最著名的自回归语言模型是Transformer。XLNet使用更高级的Transformer-XL体系结构。

 

本质上讲,自回归语言建模和BERT相对于其他语言占据优势,而XLNet则在兼顾两者优势的同时,巧妙地避免了自身的劣势。和BERT一样,XLNet利用双向上下文预测,即预测时考虑token前后的单词。另一方面,作为自回归语言模型,XLNet不依赖于输入数据损坏,因此不存在BERT的局限性。


基于可转换架构搜索的网络剪枝


微信图片_20220107183913.png


论文链接:


https://arxiv.org/pdf/1905.09717.pdf


代码资源:


https://github.com/D-X-Y/NAS-Projects?source=post_page-----1ec363f29e85----------------------


网络剪枝是深度学习的一个有趣的领域。其思路是分析神经网络的结构,并在其中找到“死角”和有用的参数。然后按照估计好的深度和宽度建立一种新架构,称为剪枝网络。然后,可以将来自原网络中的有用参数传输到新网络。这种方式对于深度卷积神经网络(CNN)特别有用,如果在嵌入式系统中进行部署,网络规模可能会变得很大且不切实际。在前一种情况下,网络剪枝可以减少超参数数量,降低CNN的计算成本。

 

传统的网络剪枝方法如下所示:


微信图片_20220107183911.png


本文实际上建议使用的方法如下图所示:


微信图片_20220107183909.png


本文实际上一开始就进行了大型网络的训练。然后通过传输体系结构搜索(TAS)提出了搜索小型网络的深度和宽度的建议。最后,使用知识提炼将大型网络中的知识转移到小型网络中。


Demucs:一个面向音乐源的深度提取器


微信图片_20220107183906.jpg


论文链接:


https://arxiv.org/pdf/1909.01174v1.pdf


代码资源:


https://github.com/facebookresearch/demucs


在录制某些歌曲时,每种乐器都分别录制到单独的音轨或stem中。之后在混音和母带阶段,这些词干被合并在一起,生成歌曲。本文的目的是找到这一过程的逆向过程的方法,也就是说要从完成的歌曲中提取每个单独的stem。这个问题的灵感源自所谓“鸡尾酒会效应”,是说人脑可以从一个嘈杂的聊天室的环境中将单独对话分离出来,并专注于这个特定的对话,自带降噪效果。


本文提出的体系架构是SING神经网络体系结构和Wave-U-Net的思想的结合。前者用于符号到乐器的音乐合成,而后者是从混音中提取stem的方法之一。本质上是LSTM、卷积层与U-Net架构的结合。其中卷积层负责体系结构的编码,LSTM层用于解码。为了提高模型性能,本文中的架构不使用批量归一化层。


StarGAN v2:多域的多样化图像合成


微信图片_20220107183903.jpg


论文链接:


https://arxiv.org/pdf/1912.01865v1.pdf


代码资源:


https://github.com/clovaai/stargan-v2


我们爱GANs!特别是在图像创建和处理方面。这个领域中一个非常有趣的问题就是所谓的“图像到图像转换问题”,我们希望将特征从一个图像域转移到另一个图像域(这里的“图像域”代表可以归类为视觉上独特的类别的一组图像)。我们喜欢CycleGAN和StarGAN等旨在解决此问题的解决方案,因此您可以想象几天前看到StarGAN v2论文时我们有多么兴奋。


本文还讨论了另一个问题——域的可伸缩性。这意味着它可以同时解决多个图像域的问题。本质上,这个架构依赖于StarGAN早期版本的成功,并为其添加了样式层。它由四个模块组成:第一个模块是生成器,它负责将输入图像转换为反映域特定样式的输出图像;接下来是映射网络转换器(Mapping Network Transformer),它将潜在代码转换为多个域的样式代码;第三个是样式编码器,它提取图像的样式并将其提供给生成器;最后,判别器可以从多个域中区分真实图像和伪图像。


深度感知视频插帧


微信图片_20220107183859.jpg


论文链接:


https://arxiv.org/pdf/1904.00830


代码资源:


https://github.com/baowenbo/DAIN?source=post_page-----1ec363f29e85----------------------


视频帧合成是信号处理领域的一个有趣的分支。通常,这都是关于在现有视频中合成视频帧的。如果在视频帧之间完成操作,则称为内插(interpolation);而在视频帧之后进行此操作,则称为外推(extrapolation)。视频帧内插是一个长期存在的课题,并且已经在文献中进行了广泛的研究。这是一篇利用了深度学习技术的有趣论文。通常,由于较大的物体运动或遮挡,插值的质量会降低。在本文中,作者使用深度学习通过探索深度信息来检测遮挡。


他们创建了称为“深度感知视频帧内插”(Depth-Aware video frame INterpolation,DAIN)的架构。该模型利用深度图、局部插值核和上下文特征来生成视频帧。本质上,DAIN是基于光流和局部插值核,通过融合输入帧、深度图和上下文特征来构造输出帧。


在这些文章中,我们有机会看到一些有趣的论文和在深度学习领域取得的进步。这一领域在不断发展,我们预计2020年会更有趣。


参考链接:


https://rubikscode.net/2019/12/16/top-5-deep-learning-research-papers-in-2019/

相关文章
|
4月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
290 10
|
4月前
|
机器学习/深度学习 边缘计算 算法
SEENN: 迈向时间脉冲早退神经网络——论文阅读
SEENN提出一种时间脉冲早退神经网络,通过自适应调整每个样本的推理时间步数,有效平衡脉冲神经网络的准确率与计算效率。该方法基于置信度判断或强化学习策略,在保证高精度的同时显著降低能耗与延迟,适用于边缘计算与实时处理场景。
275 13
|
4月前
|
机器学习/深度学习 缓存 算法
2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
487 1
|
8月前
|
人工智能 算法 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
425 7
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
|
8月前
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
1363 2
|
10月前
|
前端开发 Java 关系型数据库
基于ssm的网络直播带货管理系统,附源码+数据库+论文
该项目为网络直播带货网站,包含管理员和用户两个角色。管理员可进行主页、个人中心、用户管理、商品分类与信息管理、系统及订单管理;用户可浏览主页、管理个人中心、收藏和订单。系统基于Java开发,采用B/S架构,前端使用Vue、JSP等技术,后端为SSM框架,数据库为MySQL。项目运行环境为Windows,支持JDK8、Tomcat8.5。提供演示视频和详细文档截图。
317 10
|
12月前
|
机器学习/深度学习 运维 安全
深度学习在安全事件检测中的应用:守护数字世界的利器
深度学习在安全事件检测中的应用:守护数字世界的利器
469 22
|
9月前
|
机器学习/深度学习 编解码 人工智能
计算机视觉五大技术——深度学习在图像处理中的应用
深度学习利用多层神经网络实现人工智能,计算机视觉是其重要应用之一。图像分类通过卷积神经网络(CNN)判断图片类别,如“猫”或“狗”。目标检测不仅识别物体,还确定其位置,R-CNN系列模型逐步优化检测速度与精度。语义分割对图像每个像素分类,FCN开创像素级分类范式,DeepLab等进一步提升细节表现。实例分割结合目标检测与语义分割,Mask R-CNN实现精准实例区分。关键点检测用于人体姿态估计、人脸特征识别等,OpenPose和HRNet等技术推动该领域发展。这些方法在效率与准确性上不断进步,广泛应用于实际场景。
1200 64
计算机视觉五大技术——深度学习在图像处理中的应用
|
机器学习/深度学习 传感器 数据采集
深度学习在故障检测中的应用:从理论到实践
深度学习在故障检测中的应用:从理论到实践
1135 6

热门文章

最新文章