2022年五强论文
1. AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models
论文链接:https://academic.oup.com/nar/article/50/D1/D439/6430488
发表机构:欧洲分子生物学实验室,DeepMind
AlphaFold DB:https://alphafold.ebi.ac.uk
引用量:1331AlphaFold蛋白质结构数据库AlphaFold DB是一个可公开访问的、广泛的、高准确度的蛋白质结构预测的数据库。在DeepMind的AlphaFold v2.0的支持下,该数据库使已知蛋白质序列空间的结构覆盖面得到了空前的扩展。 AlphaFold DB提供了对预测的原子坐标、每个残基和成对的模型置信度估计以及预测的对齐误差的程序化访问和互动式可视化。AlphaFold DB的初始版本包含了超过36万个预测结构,涵盖了21种模式生物的蛋白质组,未来将扩展到UniRef90数据集的大部分(超过1亿)代表性序列。 2. ColabFold: making protein folding accessible to all
论文链接:https://www.nature.com/articles/s41592-022-01488-1代码链接:https://github.com/sokrypton/colabfold环境链接:https://colabfold.mmseqs.com引用量:1138ColabFold通过将MMSEQS2的快速同源搜索与AlphaFold2或Rosettafold相结合,从而加速了对蛋白质结构和复合物的预测。ColabFold在模型利用率上可以实现40-60倍加速的搜索和优化,能够在仅具有一个图形处理单元的服务器上预测近1000个结构。ColabFold在Google Colaboratory的基础上,成为了一个蛋白质折叠的免费且可访问的平台,也是一个可用的开源软件。
3. A ConvNet for the 2020s
论文链接:https://arxiv.org/pdf/2201.03545.pdf
引用量:835
视觉识别的「Roaring 20s」(咆哮的20年代)始于视觉Transformer(ViTs)的引入,它迅速取代了ConvNets成为最先进的图像分类模型。另一方面,一个最简单的ViT在应用于通用计算机视觉任务时仍然面临着一些难题,如物体检测和语义分割。层次化Transformer(如Swin Transformers)重新引入了几个ConvNet先验,使得Transformer作为通用视觉模型骨干实际上是可行的,并在各种视觉任务中表现出显著的性能。然而,这种混合方法的有效性仍然主要归功于Transformers的内在优势,而不是Convolutions的内在归纳偏见。在这项工作中,研究人员重新审视了设计空间,并测试了纯ConvNet所能实现的极限。
逐步将一个标准的ResNet「现代化」成ViT的设计,并在这一过程中发现了几个促成性能差异的关键组件,探索后发现了一个称为ConvNeXt的纯ConvNet模型系列。
ConvNeXt完全由标准的ConvNet模块构成,在准确性和可扩展性方面与Transformer不相上下,在COCO检测和ADE20K分割方面取得了87.8%的ImageNet top-1准确性,并超过了Swin Transformers,同时保持了标准ConvNets的简单性和效率。
4. Hierarchical Text-Conditional Image Generation with CLIP Latents
论文链接:https://arxiv.org/abs/2204.06125引用量:718像CLIP这样的对比式模型(Contrastive models)已经被证明可以学习到稳健的图像表征,能够捕捉到语义和风格。为了利用这些表征来生成图像,研究人员提出了一个两阶段的模型:一个给定文本标题生成CLIP图像embedding的先验,以及一个以图像embedding为条件生成图像的解码器。
实验证明可以显式地生成图像表征能够提高图像的多样性,在逼真度和标题的相似性方面损失最小,并且以图像表征为条件的解码器也能产生图像的变化,保留其语义和风格,同时改变图像表征中不存在的非必要细节。
此外,CLIP的联合embedding空间使language-guided下的图像操作能够以zero-shot的方式进行。
对解码器使用扩散模型,并对先验的自回归和扩散模型进行实验,发现后者在计算上更有效率,能够生成质量更高的样本。
5. PaLM: Scaling Language Modeling with Pathways
论文链接:https://arxiv.org/pdf/2204.02311.pdf
引用量:426
大型语言模型已被证明在各种自然语言任务中使用few-shot学习即可达到更高的性能,极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。
为了进一步了解scale对few-shot学习的影响,研究人员训练了一个5400亿参数、密集激活的Transformer语言模型Pathways Language Model(PaLM)。
使用Pathways(一个新的ML系统,能够在多个TPU Pods上进行高效的训练)在6144个TPU v4芯片上训练得到PaLM,通过在数百个语言理解和生成基准上取得最先进的few-shot学习结果证明了scaling的好处。
在其中一些任务上,PaLM 540B实现了突破性的性能,在一套多步骤推理任务上超过了微调的最先进水平,并在最近发布的BIG-bench基准上超过了人类的平均性能。
大量的BIG-bench任务显示了模型规模的不连续改进,也意味着当规模扩大到最大的模型时,性能陡然提高。
PaLM在多语言任务和源代码生成方面也有很强的能力,这一点也在一系列基准测试中得到了证明。
此外,研究人员还对偏见和毒性进行了全面的分析,并研究了与模型规模有关的训练数据记忆程度,最后讨论了与大型语言模型有关的伦理考虑,并讨论了潜在的缓解策略。
2022年国内五强论文
1. Swin Transformer V2: Scaling Up Capacity and Resolution论文链接:https://arxiv.org/pdf/2111.09883.pdf代码链接:https://github.com/microsoft/Swin-Transformer引用量:266 大规模的NLP模型已经被证明可以显著提高语言任务的性能,而且没有饱和的迹象,同时还展示了像人类一样的惊人的few-shot能力。这篇论文旨在探索计算机视觉中的大规模模型,解决了大型视觉模型训练和应用中的三个主要问题,包括训练的不稳定性,预训练和微调之间的分辨率差距,以及对有标签数据的需求。 研究人员提出了三种主要技术:1)一种与余弦注意相结合的残差-后规范方法,以提高训练的稳定性;2)一种对数间隔的连续位置偏差方法,以有效地将使用低分辨率图像预训练的模型转移到具有高分辨率输入的下游任务中;3)一种自监督的预训练方法SimMIM,以减少对大量标记图像的需求。通过这些技术,成功地训练了一个30亿参数的Swin Transformer V2模型,这是迄今为止最大的稠密视觉模型,并使其能够用高达1,536×1,536分辨率的图像进行训练。在4个代表性的视觉任务上创造了新的性能记录,包括ImageNet-V2图像分类、COCO物体检测、ADE20K语义分割和Kinetics-400视频动作分类。同时可以注意到该训练比谷歌的十亿级视觉模型中的训练效率要高得多,所消耗的有标签数据和训练时间要少40倍。2. Ensemble unsupervised autoencoders and Gaussian mixture model for cyberattack detection之前的研究采用了具有降维功能的无监督机器学习来进行网络攻击检测,仅限于对高维和稀疏数据进行鲁棒的异常检测。大多数方法通常假设每个领域的参数是同质的,具有特定的高斯分布,忽视了数据偏度的鲁棒性测试。论文链接:https://www.sciencedirect.com/science/article/pii/S0306457321003162引用量:145这篇论文提出使用连接到高斯混合模型(GMM)的无监督集合自编码器来适应多个领域,无需考虑每个领域的偏度(skewness)。在集成自编码器的隐藏空间中,利用了基于注意力的潜在表征和重建的最小误差的特征,使用期望最大化(EM)算法来估计GMM中的样本密度,当估计的样本密度超过训练阶段获得的学习阈值时,该样本被识别为与攻击异常有关的离群点。最后,对集成自编码器和GMM进行联合优化,将目标函数的优化转化为拉格朗日对偶问题,在三个公共数据集上进行的实验验证了所提出的模型的性能与所选择的异常检测基线相比有明显竞争力。
论文共同一作为来自宁波工程学院的安鹏教授和同济大学的Zhiyuan Wang。
安鹏教授目前是宁波工程学院电子与信息工程学院副院长,2000年至2009年就读于清华大学工程物理系,获工学学士学位、工学博士学位;欧洲核子研究中心、意大利国家帕多瓦大学、德国海德堡大学访问学者,中国自动化学会认知计算与系统专业委员会委员、中国人工智能学会认知系统与信息处理专业委员会委员、中国指挥与控制学会青年工作委员会委员;主持并参与国家重点基础研究发展计划(973计划)、国家自然科学基金、国家星火计划项目等多项科研项目。
3. Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
论文链接:https://arxiv.org/abs/2203.06717代码链接:https://github.com/megvii-research/RepLKNet引用量:127文中回顾了现代卷积神经网络(CNN)中的大核设计。 受视觉Transformer(ViTs)最新进展的启发,该论文证明了使用几个大的卷积内核代替一堆小的内核可能是一个更强大的范例。研究人员提出了五个指导方针,例如,应用重新参数化的大深度卷积,来设计高效的高性能大内核 CNN。 根据这些指导方针提出了RepLKNet,一个纯粹的 CNN 架构,其内核大小为31x31,与通常使用的3x3形成对比,RepLKNet 极大地缩小了 CNN 和 ViTs 之间的性能差距,例如在 ImageNet 和一些典型的下游任务上,以较低的延迟实现了与 Swin Transformer 相当或更好的结果。RepLKNet 对大数据和大模型也表现出很好的可扩展性,在 ImageNet 上获得了87.8% 的最高准确率,在 ADE20K 上获得了56.0% 的 mIoU,在具有类似模型大小的最先进技术中是非常有竞争力的。该研究进一步表明,与小核 CNN 相比,大核 CNN 具有更大的有效接收场(receptive fields)和更高的形状偏差,而不是纹理偏差。4. TensoRF: Tensorial Radiance Fields论文链接:https://arxiv.org/abs/2203.09517
引用量:110
文中提出了TensoRF,一种对辐射场(radiance fields)进行建模和重构的新方法。
与纯粹使用MLP的NeRF不同,研究人员将场景的辐射场建模为一个4D张量,代表了一个具有每体素多通道特征(per-voxel multi-channel features)的三维体素网格,其中心思想是将4D场景张量分解为多个紧凑的低秩张量成分。
证明了在该框架中应用传统的CP分解,将张量分解为具有紧凑向量的rank-one components会获得比普通的NeRF更好的性能。
为了进一步提高性能,文中还引入了一种新的矢量-矩阵(VM)分解,放松了张量的两种模式的低秩约束,并将张量分解为紧凑的矢量和矩阵因子。除了更好的渲染质量,该模型与CP和VM分解相比,直接优化每象素特征的先前和同时进行的工作导致了显著的内存占用。实验证明,与NeRF相比,采用CP分解的TensoRF实现了快速重建(<30分钟),具有更好的渲染质量,甚至更小的模型尺寸(<4MB)。 此外,采用VM分解的TensoRF进一步提高了渲染质量,并超过了以前最先进的方法,同时减少了重建时间(<10分钟)并保留了紧凑的模型大小(<75 MB)。5. VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training论文链接:https://arxiv.org/abs/2203.12602代码链接:https://github.com/MCG-NJU/VideoMAE
引用量:100
为了在相对较小的数据集上实现更高的性能,通常需要在额外的大规模数据集上预训练视频Transformer。
这篇论文表明视频掩码自动编码器(VideoMAE)是用于自监督视频预训练(SSVP)的数据高效学习器。
受到最近的ImageMAE的启发,研究人员提出了具有极高掩码比例的定制视频管(video tube),这种简单的设计使视频重建成为一项更具挑战性的自监督任务,从而鼓励在这个预训练过程中提取更有效的视频表征。
在SSVP上获得了三个重要的发现:(1)极高比例的掩码率(即90%到95%)仍然能产生VideoMAE的有利表现。时间上冗余的视频内容使得掩蔽率比图像更高。(2) VideoMAE在非常小的数据集(即大约3k-4k的视频)上取得了非常高的性能,而没有使用任何额外的数据。 (3) VideoMAE表明,对于SSVP来说,数据质量比数据数量更重要。 预训练和目标数据集之间的领域迁移是一个重要问题。值得注意的是,VideoMAE与普通的ViT可以在Kinetics-400上达到87.4%,在Something-Something V2上达到75.4%,在UCF101上达到91.3%,在HMDB51上达到62.6%,而无需使用任何额外的数据。
完整百强论文列表
参考资料:https://www.zeta-alpha.com/post/must-read-the-100-most-cited-ai-papers-in-2022https://twitter.com/ylecun/status/1631793362767577088