7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年；扩散模型生成视频(1)-阿里云开发者社区

本周论文包括谷歌大牛 Jeff Dean 发文探索深度学习发展的黄金十年；Google Research 的研究者们提出了一种称为「自洽性（self-consistency）」的简单策略，显著提高了大型语言模型的推理准确率。

A Golden Decade of Deep Learning: Computing Systems & Applications
Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing
Self-Consistency Improves Chain of Thought Reasoning in Language Models
Reconfigurable Magnetic Slime Robot: Deformation, Adaptability, and Multifunction
Video Diffusion Models
Overcoming a Theoretical Limitation of Self-Attention
RETHINKING NETWORK DESIGN AND LOCAL GEOMETRY IN POINT CLOUD: A SIMPLE RESIDUAL MLP FRAMEWORK
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：A Golden Decade of Deep Learning: Computing Systems & Applications

作者：Jeffrey Dean
论文链接：https://www.amacad.org/sites/default/files/publication/downloads/Daedalus_Sp22_04_Dean.pdf

摘要：自从计算机诞生之初，人类就梦想着能够创造出会思考的机器。1956 年在达特茅斯学院组织的一个研讨会上，约翰 · 麦卡锡提出人工智能这个概念，一群数学家和科学家聚集在一起寻找如何让机器使用语言、形成抽象理解和概念、以解决现存的各种问题，当时研讨会参与者乐观地认为，在几个月的时间里这些问题能取得真正的进展。

事实证明，预留几个月的时间安排过于乐观。在接下来的 50 年里，创建人工智能系统的各种方法开始流行，但后来又遭遇过时，包括基于逻辑的系统、基于规则的专家系统和神经网络。

直到 2011 年左右，人工智能才开始进入发展关键阶段，取得了巨大的进步，这得益于深度学习中神经网络的复兴，这些技术的进步有助于提高计算机看、听和理解周围世界的能力，使得人工智能在科学以及人类探索的其他领域取得巨大进步。这其中有哪些原因呢？

近日，谷歌大牛 Jeff Dean 发表了一篇文章《 A Golden Decade of Deep Learning: Computing Systems & Applications 》，文章探索了深度学习在这黄金十年里，计算系统以及应用进步的原因都有哪些？本文重点关注三个方面：促成这一进步的计算硬件和软件系统；过去十年在机器学习领域一些令人兴奋的应用示例；如何创建更强大的机器学习系统，以真正实现创建智能机器的目标。

Jeff Dean 的这篇文章发表在了美国文理学会会刊 Dædalus 的 AI 与社会（AI & Society）特刊上。

推荐：谷歌大牛 Jeff Dean 单一作者撰文：深度学习研究的黄金十年。

论文 2：Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing

作者：Zhuo Wang 、 Zezheng Wang 、 Zitong Yu 等
论文链接：https://arxiv.org/abs/2203.05340

摘要：在这篇文章中，该研究提出了一个新的网络结构 SSAN，用以实现具有域泛化性的活体检测算法。与过去的方法直接在图像完全表征上提升域泛化性的思路不同，该研究基于内容特征和风格特征在统计特性上的差异，对他们实施不同的处理。具体而言，对于内容特征，本文采用了对抗学习的方式，使得网络无法对他们进行数据域层面的区分。对于风格特征，本文使用了对比学习的策略，来强化与活体相关的风格信息，同时抑制域信息相关的部分。然后，本文对配对的内容和风格特征进行组合，构成完全特征表示，并用以最后的分类。

此外，为了弥合学术界与工业界之间的差异，本文通过合并现有的公开数据集，建立了大规模活体检测测试协议。在现有的协议和本文所提出的协议上，所提出的 SSAN 算法均取得了最佳的表现。

本文方法的整体框架如图二所示。首先，本文使用一个双流网络来对图像的内容信息和风格信息进行提取。第二步，一种风格重组的方法被提出，以使不同的内容特征和风格特征进行组合。然后，为了抑制域相关的风格信息，同时增强活体相关的风格信息，本文在重组后的特征空间上使用了对比学习的策略。最后，总的损失函数用来训练所提出的网络。

整体网络框架

推荐：快手、北邮提出基于特征组合的域泛化性活体检测算法，多项 SOTA。

论文 3：Self-Consistency Improves Chain of Thought Reasoning in Language Models

作者：Xuezhi Wang 、 Jason Wei 等
论文链接：https://arxiv.org/pdf/2203.11171.pdf

摘要：尽管语言模型在一系列 NLP 任务中取得了显著的成功，但它们的推理能力往往不足，仅靠扩大模型规模不能解决这个问题。基于此，Wei et al. (2022) 提出了思维提示链（chain of thought prompting），提示语言模型生成一系列短句，这些短句模仿一个人在解决推理任务时可能采用的推理过程。

现在来自 Google Research 的研究者们提出了一种称为「自洽性（self-consistency）」的简单策略，它显著提高了大型语言模型的推理准确率。

简单来说，复杂的推理任务通常有多个能得到正确答案的推理路径，自洽方法通过思维提示链从语言模型中采样一组不同的推理路径，然后返回其中最自洽的答案。

该方法在一系列算术和常识推理基准上评估自洽性，可以稳健地提高各种语言模型的准确性，而无需额外的训练或辅助模型。当与最近的大型语言模型 PaLM-540B 结合使用时，自洽方法将多个基准推理任务的性能提高到 SOTA 水平。

该方法是完全无监督的，预训练语言模型直接可用，不需要额外的人工注释，也不需要任何额外的训练、辅助模型或微调。

该研究在三种大型语言模型上评估一系列算术推理和常识推理任务的自洽性，包括 LaMDA-137B (Thoppilan et al., 2022)、PaLM-540B (Chowdhery et al., 2022) 和 GPT-3 175B (Brown et al., 2020)。研究者发现，对于这几种规模不同的语言模型，自洽方法都能显著提高其推理能力。与通过贪心解码（Wei et al., 2022）生成单一思维链相比，自洽方法有助于在所有推理任务中显著提高准确性，如下图 2 所示。

推荐：用自洽性提升大模型推理能力，谷歌解答基准中 75% 数学问题，比 GPT-3 提升 20%。

论文 4：Reconfigurable Magnetic Slime Robot: Deformation, Adaptability, and Multifunction

作者：Mengmeng Sun、Chenyao Tian 等
论文链接：https://onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202112508

摘要：看过电影《毒液》的朋友都知道，「共生体」以液体状的形式出现，即使被打成肉泥或是一滩水，只要有足够的时间也可以恢复。现在，具有这般强大修复功能的机器人出现了。

这种「磁性粘液机器人」和粘液怪 slime 同名，是由来自哈尔滨工业大学和香港中文大学的研究者共同研发的，研究发表在同行评审期刊《Advanced Functional Materials》上。

slime 由聚乙烯醇、硼砂和钕磁铁颗粒的混合物制成。研究团队成员、香港中文大学教授张立说：「这种材料就像是水和淀粉的混合物，是一种非牛顿流体，其粘度会在外力作用下发生变化。当你快速触摸它时，它就像一个固体。当你轻轻地、慢慢地触摸它时，它就像液体一样。」

由于该粘液中含有钕磁铁等磁性颗粒，因此能够由磁铁控制其移动和变形，并且具有良好的导电性，可与电极相连，充当电路开关。

slime 具备极好的拉伸性能，可以通过 1.5mm 的狭窄缝隙而不断裂。该研究在相同的磁场条件下，比较了铁磁流体液滴机器人和 slime 的拉伸能力。

此外，slime 能够变成 O 形或 C 形来环绕细小的物体，一些科学家认为这可能对消化系统有用，例如减少吞下小电池的危害。他们认为使用这种粘液机器人对电池进行封装，形成一种惰性涂层，可以避免有毒电解质泄漏的危害。

推荐：来自哈尔滨工业大学和香港中文大学的研究者共同研发了一种磁性粘液机器人，具有强大的变形功能。

论文 5：Video Diffusion Models

作者：Jonathan Ho 、 Tim Salimans 等
论文链接：https://arxiv.org/pdf/2204.03458.pdf

摘要：扩散模型并不是一个崭新的概念，早在 2015 年就已经被提出。其核心应用领域包括音频建模、语音合成、时间序列预测、降噪等。

那么它在视频领域表现如何？先前关于视频生成的工作通常采用诸如 GAN、VAE、基于流的模型。

在视频生成领域，研究的一个重要里程碑是生成时间相干的高保真视频。来自谷歌的研究者通过提出一个视频生成扩散模型来实现这一里程碑，显示出非常有希望的初步结果。本文所提出的模型是标准图像扩散架构的自然扩展，它可以从图像和视频数据中进行联合训练，研究发现这可以减少小批量梯度的方差并加快优化速度。

为了生成更长和更高分辨率的视频，该研究引入了一种新的用于空间和时间视频扩展的条件采样技术，该技术比以前提出的方法表现更好。

例如生成五彩斑斓的烟花：

这项研究有哪些亮点呢？首先谷歌展示了使用扩散模型生成视频的首个结果，包括无条件和有条件设置。先前关于视频生成的工作通常采用其他类型的生成模型，如 GAN、VAE、基于流的模型和自回归模型。

其次该研究表明，可以通过高斯扩散模型的标准公式来生成高质量的视频，除了直接的架构更改以适应深度学习加速器的内存限制外，几乎不需要其他修改。该研究训练生成固定数量的视频帧块的模型，并且为了生成比该帧数更长的视频，他们还展示了如何重新调整训练模型的用途，使其充当对帧进行块自回归的模型。

下图左为利用梯度方法的视频帧，图右为利用自回归扩展基线替代（replacement）方法的帧。可以看到，使用梯度方法采用的视频比基线方法具有更好的时间相干性。

推荐：视频生成无需 GAN、VAE，谷歌用扩散模型联合训练视频、图像，实现新 SOTA。

7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年；扩散模型生成视频(1)

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书