2022年「百强AI论文」出炉:清华紧随谷歌排名第二,宁波工程学院成最大黑马

简介: 2022年「百强AI论文」出炉:清华紧随谷歌排名第二,宁波工程学院成最大黑马

2022年五强论文

1. AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models

论文链接:https://academic.oup.com/nar/article/50/D1/D439/6430488

发表机构:欧洲分子生物学实验室,DeepMind

AlphaFold DB:https://alphafold.ebi.ac.uk

引用量:1331AlphaFold蛋白质结构数据库AlphaFold DB是一个可公开访问的、广泛的、高准确度的蛋白质结构预测的数据库。在DeepMind的AlphaFold v2.0的支持下,该数据库使已知蛋白质序列空间的结构覆盖面得到了空前的扩展。 AlphaFold DB提供了对预测的原子坐标、每个残基和成对的模型置信度估计以及预测的对齐误差的程序化访问和互动式可视化。AlphaFold DB的初始版本包含了超过36万个预测结构,涵盖了21种模式生物的蛋白质组,未来将扩展到UniRef90数据集的大部分(超过1亿)代表性序列。 2. ColabFold: making protein folding accessible to all

论文链接:https://www.nature.com/articles/s41592-022-01488-1代码链接:https://github.com/sokrypton/colabfold环境链接:https://colabfold.mmseqs.com引用量:1138ColabFold通过将MMSEQS2的快速同源搜索与AlphaFold2或Rosettafold相结合,从而加速了对蛋白质结构和复合物的预测。ColabFold在模型利用率上可以实现40-60倍加速的搜索和优化,能够在仅具有一个图形处理单元的服务器上预测近1000个结构。ColabFold在Google Colaboratory的基础上,成为了一个蛋白质折叠的免费且可访问的平台,也是一个可用的开源软件。

3. A ConvNet for the 2020s

论文链接:https://arxiv.org/pdf/2201.03545.pdf

引用量:835

视觉识别的「Roaring 20s」(咆哮的20年代)始于视觉Transformer(ViTs)的引入,它迅速取代了ConvNets成为最先进的图像分类模型。另一方面,一个最简单的ViT在应用于通用计算机视觉任务时仍然面临着一些难题,如物体检测和语义分割。层次化Transformer(如Swin Transformers)重新引入了几个ConvNet先验,使得Transformer作为通用视觉模型骨干实际上是可行的,并在各种视觉任务中表现出显著的性能。然而,这种混合方法的有效性仍然主要归功于Transformers的内在优势,而不是Convolutions的内在归纳偏见。在这项工作中,研究人员重新审视了设计空间,并测试了纯ConvNet所能实现的极限。

逐步将一个标准的ResNet「现代化」成ViT的设计,并在这一过程中发现了几个促成性能差异的关键组件,探索后发现了一个称为ConvNeXt的纯ConvNet模型系列。

ConvNeXt完全由标准的ConvNet模块构成,在准确性和可扩展性方面与Transformer不相上下,在COCO检测和ADE20K分割方面取得了87.8%的ImageNet top-1准确性,并超过了Swin Transformers,同时保持了标准ConvNets的简单性和效率。

4. Hierarchical Text-Conditional Image Generation with CLIP Latents

论文链接:https://arxiv.org/abs/2204.06125引用量:718像CLIP这样的对比式模型(Contrastive models)已经被证明可以学习到稳健的图像表征,能够捕捉到语义和风格。为了利用这些表征来生成图像,研究人员提出了一个两阶段的模型:一个给定文本标题生成CLIP图像embedding的先验,以及一个以图像embedding为条件生成图像的解码器。

实验证明可以显式地生成图像表征能够提高图像的多样性,在逼真度和标题的相似性方面损失最小,并且以图像表征为条件的解码器也能产生图像的变化,保留其语义和风格,同时改变图像表征中不存在的非必要细节。

此外,CLIP的联合embedding空间使language-guided下的图像操作能够以zero-shot的方式进行。

对解码器使用扩散模型,并对先验的自回归和扩散模型进行实验,发现后者在计算上更有效率,能够生成质量更高的样本。

5. PaLM: Scaling Language Modeling with Pathways

论文链接:https://arxiv.org/pdf/2204.02311.pdf

引用量:426

大型语言模型已被证明在各种自然语言任务中使用few-shot学习即可达到更高的性能,极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。

为了进一步了解scale对few-shot学习的影响,研究人员训练了一个5400亿参数、密集激活的Transformer语言模型Pathways Language Model(PaLM)。

使用Pathways(一个新的ML系统,能够在多个TPU Pods上进行高效的训练)在6144个TPU v4芯片上训练得到PaLM,通过在数百个语言理解和生成基准上取得最先进的few-shot学习结果证明了scaling的好处。

在其中一些任务上,PaLM 540B实现了突破性的性能,在一套多步骤推理任务上超过了微调的最先进水平,并在最近发布的BIG-bench基准上超过了人类的平均性能。

大量的BIG-bench任务显示了模型规模的不连续改进,也意味着当规模扩大到最大的模型时,性能陡然提高。

PaLM在多语言任务和源代码生成方面也有很强的能力,这一点也在一系列基准测试中得到了证明。

此外,研究人员还对偏见和毒性进行了全面的分析,并研究了与模型规模有关的训练数据记忆程度,最后讨论了与大型语言模型有关的伦理考虑,并讨论了潜在的缓解策略。

 

2022年国内五强论文

 

1. Swin Transformer V2: Scaling Up Capacity and Resolution论文链接:https://arxiv.org/pdf/2111.09883.pdf代码链接:https://github.com/microsoft/Swin-Transformer引用量:266 大规模的NLP模型已经被证明可以显著提高语言任务的性能,而且没有饱和的迹象,同时还展示了像人类一样的惊人的few-shot能力。这篇论文旨在探索计算机视觉中的大规模模型,解决了大型视觉模型训练和应用中的三个主要问题,包括训练的不稳定性,预训练和微调之间的分辨率差距,以及对有标签数据的需求。 研究人员提出了三种主要技术:1)一种与余弦注意相结合的残差-后规范方法,以提高训练的稳定性;2)一种对数间隔的连续位置偏差方法,以有效地将使用低分辨率图像预训练的模型转移到具有高分辨率输入的下游任务中;3)一种自监督的预训练方法SimMIM,以减少对大量标记图像的需求。通过这些技术,成功地训练了一个30亿参数的Swin Transformer V2模型,这是迄今为止最大的稠密视觉模型,并使其能够用高达1,536×1,536分辨率的图像进行训练。在4个代表性的视觉任务上创造了新的性能记录,包括ImageNet-V2图像分类、COCO物体检测、ADE20K语义分割和Kinetics-400视频动作分类。同时可以注意到该训练比谷歌的十亿级视觉模型中的训练效率要高得多,所消耗的有标签数据和训练时间要少40倍。2. Ensemble unsupervised autoencoders and Gaussian mixture model for cyberattack detection之前的研究采用了具有降维功能的无监督机器学习来进行网络攻击检测,仅限于对高维和稀疏数据进行鲁棒的异常检测。大多数方法通常假设每个领域的参数是同质的,具有特定的高斯分布,忽视了数据偏度的鲁棒性测试。论文链接:https://www.sciencedirect.com/science/article/pii/S0306457321003162引用量:145这篇论文提出使用连接到高斯混合模型(GMM)的无监督集合自编码器来适应多个领域,无需考虑每个领域的偏度(skewness)。在集成自编码器的隐藏空间中,利用了基于注意力的潜在表征和重建的最小误差的特征,使用期望最大化(EM)算法来估计GMM中的样本密度,当估计的样本密度超过训练阶段获得的学习阈值时,该样本被识别为与攻击异常有关的离群点。最后,对集成自编码器和GMM进行联合优化,将目标函数的优化转化为拉格朗日对偶问题,在三个公共数据集上进行的实验验证了所提出的模型的性能与所选择的异常检测基线相比有明显竞争力。

论文共同一作为来自宁波工程学院的安鹏教授和同济大学的Zhiyuan Wang。

安鹏教授目前是宁波工程学院电子与信息工程学院副院长,2000年至2009年就读于清华大学工程物理系,获工学学士学位、工学博士学位;欧洲核子研究中心、意大利国家帕多瓦大学、德国海德堡大学访问学者,中国自动化学会认知计算与系统专业委员会委员、中国人工智能学会认知系统与信息处理专业委员会委员、中国指挥与控制学会青年工作委员会委员;主持并参与国家重点基础研究发展计划(973计划)、国家自然科学基金、国家星火计划项目等多项科研项目。

3. Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs

论文链接:https://arxiv.org/abs/2203.06717代码链接:https://github.com/megvii-research/RepLKNet引用量:127文中回顾了现代卷积神经网络(CNN)中的大核设计。 受视觉Transformer(ViTs)最新进展的启发,该论文证明了使用几个大的卷积内核代替一堆小的内核可能是一个更强大的范例。研究人员提出了五个指导方针,例如,应用重新参数化的大深度卷积,来设计高效的高性能大内核 CNN。 根据这些指导方针提出了RepLKNet,一个纯粹的 CNN 架构,其内核大小为31x31,与通常使用的3x3形成对比,RepLKNet 极大地缩小了 CNN 和 ViTs 之间的性能差距,例如在 ImageNet 和一些典型的下游任务上,以较低的延迟实现了与 Swin Transformer 相当或更好的结果。RepLKNet 对大数据和大模型也表现出很好的可扩展性,在 ImageNet 上获得了87.8% 的最高准确率,在 ADE20K 上获得了56.0% 的 mIoU,在具有类似模型大小的最先进技术中是非常有竞争力的。该研究进一步表明,与小核 CNN 相比,大核 CNN 具有更大的有效接收场(receptive fields)和更高的形状偏差,而不是纹理偏差。4. TensoRF: Tensorial Radiance Fields论文链接:https://arxiv.org/abs/2203.09517

引用量:110

文中提出了TensoRF,一种对辐射场(radiance fields)进行建模和重构的新方法。

与纯粹使用MLP的NeRF不同,研究人员将场景的辐射场建模为一个4D张量,代表了一个具有每体素多通道特征(per-voxel multi-channel features)的三维体素网格,其中心思想是将4D场景张量分解为多个紧凑的低秩张量成分。

证明了在该框架中应用传统的CP分解,将张量分解为具有紧凑向量的rank-one components会获得比普通的NeRF更好的性能。

为了进一步提高性能,文中还引入了一种新的矢量-矩阵(VM)分解,放松了张量的两种模式的低秩约束,并将张量分解为紧凑的矢量和矩阵因子。除了更好的渲染质量,该模型与CP和VM分解相比,直接优化每象素特征的先前和同时进行的工作导致了显著的内存占用。实验证明,与NeRF相比,采用CP分解的TensoRF实现了快速重建(<30分钟),具有更好的渲染质量,甚至更小的模型尺寸(<4MB)。 此外,采用VM分解的TensoRF进一步提高了渲染质量,并超过了以前最先进的方法,同时减少了重建时间(<10分钟)并保留了紧凑的模型大小(<75 MB)。5. VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training论文链接:https://arxiv.org/abs/2203.12602代码链接:https://github.com/MCG-NJU/VideoMAE

引用量:100

为了在相对较小的数据集上实现更高的性能,通常需要在额外的大规模数据集上预训练视频Transformer。

这篇论文表明视频掩码自动编码器(VideoMAE)是用于自监督视频预训练(SSVP)的数据高效学习器。

受到最近的ImageMAE的启发,研究人员提出了具有极高掩码比例的定制视频管(video tube),这种简单的设计使视频重建成为一项更具挑战性的自监督任务,从而鼓励在这个预训练过程中提取更有效的视频表征。

在SSVP上获得了三个重要的发现:(1)极高比例的掩码率(即90%到95%)仍然能产生VideoMAE的有利表现。时间上冗余的视频内容使得掩蔽率比图像更高。(2) VideoMAE在非常小的数据集(即大约3k-4k的视频)上取得了非常高的性能,而没有使用任何额外的数据。 (3) VideoMAE表明,对于SSVP来说,数据质量比数据数量更重要。 预训练和目标数据集之间的领域迁移是一个重要问题。值得注意的是,VideoMAE与普通的ViT可以在Kinetics-400上达到87.4%,在Something-Something V2上达到75.4%,在UCF101上达到91.3%,在HMDB51上达到62.6%,而无需使用任何额外的数据。

完整百强论文列表

 

参考资料:https://www.zeta-alpha.com/post/must-read-the-100-most-cited-ai-papers-in-2022https://twitter.com/ylecun/status/1631793362767577088

相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
62 6
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
111 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
17天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
111 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
9天前
|
人工智能 自然语言处理 API
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
谷歌推出的Multimodal Live API是一个支持多模态交互、低延迟实时互动的AI接口,能够处理文本、音频和视频输入,提供自然流畅的对话体验,适用于多种应用场景。
54 3
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
|
24天前
|
机器学习/深度学习 数据中心 芯片
【AI系统】谷歌 TPU 历史发展
本文详细介绍了谷歌TPU的发展历程及其在AI领域的应用。TPU是谷歌为加速机器学习任务设计的专用集成电路,自2016年首次推出以来,经历了多次迭代升级,包括TPU v1、v2、v3、v4及Edge TPU等版本。文章分析了各代TPU的技术革新,如低精度计算、脉动阵列、专用硬件设计等,并探讨了TPU在数据中心和边缘计算中的实际应用效果,以及谷歌如何通过TPU推动移动计算体验的进步。
56 1
【AI系统】谷歌 TPU 历史发展
|
24天前
|
机器学习/深度学习 人工智能 Python
MuCodec:清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器
MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学联合开发的超低比特率音乐编解码器。它能够在0.35kbps至1.35kbps的比特率下实现高效的音乐压缩和高保真重建,适用于在线音乐流媒体服务、音乐下载、语言模型建设等多个应用场景。
37 1
MuCodec:清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器
|
16天前
|
人工智能 算法 搜索推荐
2024 “AI+硬件创新大赛”获奖名单出炉,浙大、上交与复旦联队等夺冠
2024年11月30日,由开放源子开源基金会主办,魔搭社区、英特尔与阿里云共同承办的“AI+硬件创新大赛”总决赛在杭州圆满落幕。
|
18天前
|
人工智能 自然语言处理 安全
谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
谷歌发布的Gemini 2.0标志着AI新时代的到来,被誉为“谷歌版贾维斯”。该系统在自然语言处理、图像识别及自主操控电脑等方面取得重大进展,尤其在多模态数据处理上表现出色,能更准确理解用户需求并执行复杂任务。尽管存在对AI自主操控可能带来的负面影响的担忧,谷歌强调Gemini 2.0旨在辅助而非替代人类工作,且已采取多项措施保障其安全性和可靠性。
25 5
|
23天前
|
机器学习/深度学习 人工智能 芯片
【AI系统】谷歌 TPU v3 POD 形态
TPU v3 是 TPU v2 的增强版,主要改进包括:MXU 数量翻倍至 4 个,时钟频率提升 30%,内存带宽扩大 30%,容量翻倍,芯片间带宽增加 30%,可连接节点数增至 4 倍。TPU v3 通过采用水冷系统,不仅提高了功率,还优化了温度管理,显著提升了计算能力和能效。TPU v3 Pod 由 1024 个 TPU v3 组成,算力达 100 PFLOPS,适用于大规模神经网络训练。
31 2
|
24天前
|
机器学习/深度学习 缓存 芯片
【AI系统】谷歌 TPU v1-脉动阵列
本文详细分析了谷歌TPU v1的架构与设计,重点介绍了其核心组件如DDR3 DRAM、矩阵乘法单元(MXU)、累加器及控制指令单元,特别是MXU中脉动阵列的工作机制。通过对比TPU v1与CPU、GPU在服务器环境中的表现,展示了TPU v1在提升神经网络计算吞吐量方面的显著优势,尤其是在低延迟和高能效方面。
50 3
下一篇
DataWorks