7 Papers | 谷歌开源V-MoE代码；FAIR等纯卷积ConvNet，反超Transformer（2）-阿里云开发者社区

7 Papers | 谷歌开源V-MoE代码；FAIR等纯卷积ConvNet，反超Transformer（2）

2023-05-13 157

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 7 Papers | 谷歌开源V-MoE代码；FAIR等纯卷积ConvNet，反超Transformer

推荐：150 亿参数，谷歌开源了史上最大视觉模型 V-MoE 的全部代码。

论文 4：A ConvNet for the 2020s

作者：谢赛宁、刘壮等
论文链接：https://arxiv.org/pdf/2201.03545.pdf

摘要：来自 FAIR 、UC 伯克利的研究者重新检查了设计空间并测试了纯 ConvNet 所能达到的极限。研究者逐渐将标准 ResNet「升级（modernize」为视觉 Transformer 的设计，并在此过程中发现了导致性能差异的几个关键组件。

研究者将这一系列纯 ConvNet 模型，命名为 ConvNeXt。ConvNeXt 完全由标准 ConvNet 模块构建，在准确性和可扩展性方面 ConvNeXt 取得了与 Transformer 具有竞争力的结果，达到 87.8% ImageNet top-1 准确率，在 COCO 检测和 ADE20K 分割方面优于 Swin Transformer，同时保持标准 ConvNet 的简单性和有效性。

该研究梳理了从 ResNet 到类似于 Transformer 的卷积神经网络的发展轨迹。该研究根据 FLOPs 考虑两种模型大小，一种是 ResNet-50 / Swin-T 机制，其 FLOPs 约为 4.5×10^9，另一种是 ResNet-200 / Swin-B 机制，其 FLOPs 约为 15.0×10^9。为简单起见，该研究使用 ResNet-50 / Swin-T 复杂度模型展示实验结果。为了探究 Swin Transformer 的设计和标准卷积神经网络的简单性，该研究从 ResNet-50 模型出发，首先使用用于训练视觉 Transformer 的类似训练方法对其进行训练，与原始 ResNet-50 相比的结果表明性能获得了很大的提升，并将改进后的结果作为基线。

然后该研究制定了一系列设计决策，总结为 1) 宏观设计，2) ResNeXt，3) 反转瓶颈，4) 卷积核大小，以及 5) 各种逐层微设计。下图 2 展示了「升级网络」每一步的实现过程和结果，所有模型都是在 ImageNet-1K 上进行训练和评估的。由于网络复杂度和最终性能密切相关，因此该研究在探索过程中粗略控制了 FLOPs。

Transformer 中一个重要的设计是创建了反转瓶颈，即 MLP 块的隐藏维度比输入维度宽四倍，如下图 4 所示。

推荐：FAIR 等重新设计纯卷积 ConvNet，性能反超 Transformer。

论文 5：Analytical, Statistical Approximate Solution of Dissipative and Nondissipative Binary-Single Stellar Encounters

作者：Yonadav Barry Ginat 、 Hagai B. Perets
论文链接：https://journals.aps.org/prx/pdf/10.1103/PhysRevX.11.031020

摘要：当牛顿第一次发现两个物体之间通过引力相互作用时，他就已经破解了物质在广阔时空中移动和相互作用的密码。然而这一发现是关于两个物体之间的相互作用，三个相互环绕的物体之间的相互作用，即「三体问题」，牛顿并未解决。

距离牛顿提出「三体问题」已经过去了三个世纪，但一直没有人能够解决。不过它启发了作家刘慈欣写出科幻作品《三体》。

三体问题是一个混沌系统，这意味着做出任何有意义的预测都需要非常准确地了解三个物体的初始位置，极具挑战性。

在这样的系统中，「蝴蝶效应」变得极其真实，即使是最微小的错误也会导致物体出现与预期完全不同的轨迹。没有方程式能够预测这些物体将如何移动，也没有方法可以确定物体的运动轨迹能否随着时间的推移保持稳定。由于三体问题缺乏解决方案，科学家目前无法预测双星系统（两颗互绕的恒星）与附近的第三颗恒星相撞时会发生什么。做到这一点的唯一方法是对案例进行计算机模拟，并观察三体系统如何随着时间的推移而演变。这些模拟揭示出相互作用发生在两个阶段：首先是一个混沌阶段：三个天体激烈地相互推挤，直到一颗恒星从另外两个中弹出；然后是一个稳定阶段，三个天体的位置形成一个椭圆，彼此围绕。

如果第三颗恒星在束缚轨道（bound orbit）上，它可以重新接近另外两颗恒星，重新进入第一阶段。当其中一颗恒星在第二阶段逃入无限轨道（ infinite orbit）时，这种纠缠才能永远结束。三体问题非常依赖初始条件，意味着其结果基本是随机的，但这并不意味着不能计算每种结果的概率。

最近发表在《Physical Review X》杂志的一项研究中，来自以色列理工学院的 Yonadav Barry Ginat 及其导师 Hagai Perets 利用这种不可预测性为该过程的两个阶段提出了一个统计解决方案。他们计算了每个第一阶段接触中任何潜在结果的可能性，而不是预测实际事件。尽管该问题尚未有一个全面的解决方案，但混沌的随机特性允许人们计算三重交互以两种方式之一结束的可能性。

推荐：把「醉汉游走」引入「三体问题」，以色列学者新思路登上物理学顶刊。

论文 6：Thirty-six entangled officers of Euler: Quantum solution to a classically impossible problem

作者：Suhail Ahmad Rather 、 Adam Burchardt 等
论文链接：https://arxiv.org/pdf/2104.05122.pdf

摘要：1779 年，瑞士大名鼎鼎的数学家莱昂哈德 · 欧拉（Leonhard Euler）曾提出一个问题：即从不同的 6 个军团（army regiment）各选 6 种不同军阶（rank）的 6 名军官（officers）共 36 人，排成一个 6 行 6 列的方队，使得各行各列的 6 名军官恰好来自不同的军团而且军阶各不相同，应如何排这个方队？历史上称这个问题为「三十六军官问题」。三十六军官问题提出后，很长一段时间没有得到解决。

在提交给《物理评论快报》的一篇论文《 Thirty-six entangled officers of Euler: Quantum solution to a classically impossible problem 》中，来自印度理工学院（马德拉斯理工学院校区）、雅盖隆大学等机构的一组量子物理学家证明，可以以符合欧拉标准的方式安排 36 名军官 ——只要军官可以拥有军阶和军团的量子混合。这是魔方和拉丁方阵的在量子版本的最新研究，这不仅是有趣的游戏，还可以应用于量子通信和量子计算。

研究者必须构建一个量子态军官组成的 6×6 方阵。大量可能的配置和纠缠意味着他们必须借助计算机。因此，研究者插入了一个经典近似解（由 36 名经典军官组成的排列，一行或一列中只有少数军官的军阶和团是重复的），并应用了一种算法，将排列调整为真正的量子解。该算法的工作原理有点像使用蛮力玩魔方，首先固定第一行，然后是第一列、第二列，以此类推。当他们一遍遍地重复该算法时，36 军官方阵谜题越来越接近真正解了。

推荐：时隔 243 年，欧拉的「三十六军官」排列问题，在量子态中得到解决。

论文 7：Face detection in untrained deep neural networks

作者：Seungdae Baek 、 Min Song 、 Jaeson Jang 等
论文链接：https://www.nature.com/articles/s41467-021-27606-9.pdf

摘要：近日，韩国科学技术院（KAIST）生物脑工程系教授 Se-Bum Paik 领导的研究小组发现，即使是完全没有经过训练的深度神经网络，也可以产生对面孔图像的视觉选择性。

具体来说，在完全没有学习的情况下，他们在随机初始化的深度神经网络中观察到对面孔图像有选择性的神经元活动，这些活动显示出在生物大脑中观察到的那些特征。这项新研究发表在 12 月份的《自然 · 通讯》杂志上。它为生物和人工神经网络认知功能发展的潜在机制提供了具有启发性的见解，也对我们理解早期大脑功能（感官体验之前）的起源产生了重大影响。

利用捕捉视觉皮层腹侧流（ventral stream）特性的模型神经网络——AlexNet45，研究小组发现，面孔选择性可以在随机初始化的 DNN 的不同条件下稳健地出现。而且，它们的面孔选择性指数（FSI）与那些在大脑中观察到的面孔选择性神经元相当。

借助反向相关（RC）方法和生成对抗网络获得的优选特征图像（preferred feature image）表明，面孔选择单元对类面孔配置是有选择性的，与没有选择性的单元不同。此外，面孔选择单元使网络能够执行面孔检测。

这些结果暗示了一种可能的情况，即在早期未经训练的网络中发展的随机前馈连接可能足以初始化原始的视觉认知功能。

推荐：Nature 子刊：未经训练的神经网络也可以进行人脸检测。

7 Papers | 谷歌开源V-MoE代码；FAIR等纯卷积ConvNet，反超Transformer（2）

热门文章

最新文章

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

7 Papers | 谷歌开源V-MoE代码；FAIR等纯卷积ConvNet，反超Transformer（2）

热门文章

最新文章

相关电子书

相关实验场景