7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频(1)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频

本周论文包括谷歌大牛 Jeff Dean 发文探索深度学习发展的黄金十年;Google Research 的研究者们提出了一种称为「自洽性(self-consistency)」的简单策略,显著提高了大型语言模型的推理准确率。


目录


  1. A Golden Decade of Deep Learning: Computing Systems & Applications
  2. Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing
  3. Self-Consistency Improves Chain of Thought Reasoning in Language Models
  4. Reconfigurable Magnetic Slime Robot: Deformation, Adaptability, and Multifunction
  5. Video Diffusion Models
  6. Overcoming a Theoretical Limitation of Self-Attention
  7. RETHINKING NETWORK DESIGN AND LOCAL GEOMETRY IN POINT CLOUD: A SIMPLE RESIDUAL MLP FRAMEWORK
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:A Golden Decade of Deep Learning: Computing Systems & Applications


摘要:自从计算机诞生之初,人类就梦想着能够创造出会思考的机器。1956 年在达特茅斯学院组织的一个研讨会上,约翰 · 麦卡锡提出人工智能这个概念,一群数学家和科学家聚集在一起寻找如何让机器使用语言、形成抽象理解和概念、以解决现存的各种问题,当时研讨会参与者乐观地认为,在几个月的时间里这些问题能取得真正的进展。

事实证明,预留几个月的时间安排过于乐观。在接下来的 50 年里,创建人工智能系统的各种方法开始流行,但后来又遭遇过时,包括基于逻辑的系统、基于规则的专家系统和神经网络。

直到 2011 年左右,人工智能才开始进入发展关键阶段,取得了巨大的进步,这得益于深度学习中神经网络的复兴,这些技术的进步有助于提高计算机看、听和理解周围世界的能力,使得人工智能在科学以及人类探索的其他领域取得巨大进步。这其中有哪些原因呢?

近日,谷歌大牛 Jeff Dean 发表了一篇文章《 A Golden Decade of Deep Learning: Computing Systems & Applications 》,文章探索了深度学习在这黄金十年里,计算系统以及应用进步的原因都有哪些?本文重点关注三个方面:促成这一进步的计算硬件和软件系统;过去十年在机器学习领域一些令人兴奋的应用示例;如何创建更强大的机器学习系统,以真正实现创建智能机器的目标。

Jeff Dean 的这篇文章发表在了美国文理学会会刊 Dædalus 的 AI 与社会(AI & Society)特刊上。

推荐:谷歌大牛 Jeff Dean 单一作者撰文:深度学习研究的黄金十年。

论文 2:Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing


摘要:在这篇文章中,该研究提出了一个新的网络结构 SSAN,用以实现具有域泛化性的活体检测算法。与过去的方法直接在图像完全表征上提升域泛化性的思路不同,该研究基于内容特征和风格特征在统计特性上的差异,对他们实施不同的处理。具体而言,对于内容特征,本文采用了对抗学习的方式,使得网络无法对他们进行数据域层面的区分。对于风格特征,本文使用了对比学习的策略,来强化与活体相关的风格信息,同时抑制域信息相关的部分。然后,本文对配对的内容和风格特征进行组合,构成完全特征表示,并用以最后的分类。

此外,为了弥合学术界与工业界之间的差异,本文通过合并现有的公开数据集,建立了大规模活体检测测试协议。在现有的协议和本文所提出的协议上,所提出的 SSAN 算法均取得了最佳的表现。

本文方法的整体框架如图二所示。首先,本文使用一个双流网络来对图像的内容信息和风格信息进行提取。第二步,一种风格重组的方法被提出,以使不同的内容特征和风格特征进行组合。然后,为了抑制域相关的风格信息,同时增强活体相关的风格信息,本文在重组后的特征空间上使用了对比学习的策略。最后,总的损失函数用来训练所提出的网络。

整体网络框架

推荐:快手、北邮提出基于特征组合的域泛化性活体检测算法,多项 SOTA。

论文 3:Self-Consistency Improves Chain of Thought Reasoning in Language Models


摘要:尽管语言模型在一系列 NLP 任务中取得了显著的成功,但它们的推理能力往往不足,仅靠扩大模型规模不能解决这个问题。基于此,Wei et al. (2022) 提出了思维提示链(chain of thought prompting),提示语言模型生成一系列短句,这些短句模仿一个人在解决推理任务时可能采用的推理过程。

现在来自 Google Research 的研究者们提出了一种称为「自洽性(self-consistency)」的简单策略,它显著提高了大型语言模型的推理准确率。

简单来说,复杂的推理任务通常有多个能得到正确答案的推理路径,自洽方法通过思维提示链从语言模型中采样一组不同的推理路径,然后返回其中最自洽的答案。

该方法在一系列算术和常识推理基准上评估自洽性,可以稳健地提高各种语言模型的准确性,而无需额外的训练或辅助模型。当与最近的大型语言模型 PaLM-540B 结合使用时,自洽方法将多个基准推理任务的性能提高到 SOTA 水平。

该方法是完全无监督的,预训练语言模型直接可用,不需要额外的人工注释,也不需要任何额外的训练、辅助模型或微调。

该研究在三种大型语言模型上评估一系列算术推理和常识推理任务的自洽性,包括 LaMDA-137B (Thoppilan et al., 2022)、PaLM-540B (Chowdhery et al., 2022) 和 GPT-3 175B (Brown et al., 2020)。研究者发现,对于这几种规模不同的语言模型,自洽方法都能显著提高其推理能力。与通过贪心解码(Wei et al., 2022)生成单一思维链相比,自洽方法有助于在所有推理任务中显著提高准确性,如下图 2 所示。

推荐:用自洽性提升大模型推理能力,谷歌解答基准中 75% 数学问题,比 GPT-3 提升 20%。

论文 4:Reconfigurable Magnetic Slime Robot: Deformation, Adaptability, and Multifunction


摘要:看过电影《毒液》的朋友都知道,「共生体」以液体状的形式出现,即使被打成肉泥或是一滩水,只要有足够的时间也可以恢复。现在,具有这般强大修复功能的机器人出现了。

这种「磁性粘液机器人」和粘液怪 slime 同名,是由来自哈尔滨工业大学和香港中文大学的研究者共同研发的,研究发表在同行评审期刊《Advanced Functional Materials》上。

slime 由聚乙烯醇、硼砂和钕磁铁颗粒的混合物制成。研究团队成员、香港中文大学教授张立说:「这种材料就像是水和淀粉的混合物,是一种非牛顿流体,其粘度会在外力作用下发生变化。当你快速触摸它时,它就像一个固体。当你轻轻地、慢慢地触摸它时,它就像液体一样。」

由于该粘液中含有钕磁铁等磁性颗粒,因此能够由磁铁控制其移动和变形,并且具有良好的导电性,可与电极相连,充当电路开关。


slime 具备极好的拉伸性能,可以通过 1.5mm 的狭窄缝隙而不断裂。该研究在相同的磁场条件下,比较了铁磁流体液滴机器人和 slime 的拉伸能力。

此外,slime 能够变成 O 形或 C 形来环绕细小的物体,一些科学家认为这可能对消化系统有用,例如减少吞下小电池的危害。他们认为使用这种粘液机器人对电池进行封装,形成一种惰性涂层,可以避免有毒电解质泄漏的危害。


推荐:来自哈尔滨工业大学和香港中文大学的研究者共同研发了一种磁性粘液机器人,具有强大的变形功能。

论文 5:Video Diffusion Models


摘要:扩散模型并不是一个崭新的概念,早在 2015 年就已经被提出。其核心应用领域包括音频建模、语音合成、时间序列预测、降噪等。

那么它在视频领域表现如何?先前关于视频生成的工作通常采用诸如 GAN、VAE、基于流的模型。

在视频生成领域,研究的一个重要里程碑是生成时间相干的高保真视频。来自谷歌的研究者通过提出一个视频生成扩散模型来实现这一里程碑,显示出非常有希望的初步结果。本文所提出的模型是标准图像扩散架构的自然扩展,它可以从图像和视频数据中进行联合训练,研究发现这可以减少小批量梯度的方差并加快优化速度。

为了生成更长和更高分辨率的视频,该研究引入了一种新的用于空间和时间视频扩展的条件采样技术,该技术比以前提出的方法表现更好。

例如生成五彩斑斓的烟花:


这项研究有哪些亮点呢?首先谷歌展示了使用扩散模型生成视频的首个结果,包括无条件和有条件设置。先前关于视频生成的工作通常采用其他类型的生成模型,如 GAN、VAE、基于流的模型和自回归模型。

其次该研究表明,可以通过高斯扩散模型的标准公式来生成高质量的视频,除了直接的架构更改以适应深度学习加速器的内存限制外,几乎不需要其他修改。该研究训练生成固定数量的视频帧块的模型,并且为了生成比该帧数更长的视频,他们还展示了如何重新调整训练模型的用途,使其充当对帧进行块自回归的模型。

下图左为利用梯度方法的视频帧,图右为利用自回归扩展基线替代(replacement)方法的帧。可以看到,使用梯度方法采用的视频比基线方法具有更好的时间相干性。

推荐:视频生成无需 GAN、VAE,谷歌用扩散模型联合训练视频、图像,实现新 SOTA。


相关文章
|
1月前
|
机器学习/深度学习 数据采集 算法
构建高效图像分类模型:深度学习在处理大规模视觉数据中的应用
随着数字化时代的到来,海量的图像数据被不断产生。深度学习技术因其在处理高维度、非线性和大规模数据集上的卓越性能,已成为图像分类任务的核心方法。本文将详细探讨如何构建一个高效的深度学习模型用于图像分类,包括数据预处理、选择合适的网络架构、训练技巧以及模型优化策略。我们将重点分析卷积神经网络(CNN)在图像识别中的运用,并提出一种改进的训练流程,旨在提升模型的泛化能力和计算效率。通过实验验证,我们的模型能够在保持较低计算成本的同时,达到较高的准确率,为大规模图像数据的自动分类和识别提供了一种有效的解决方案。
|
1月前
|
机器学习/深度学习 算法 计算机视觉
基于yolov2深度学习网络的视频手部检测算法matlab仿真
基于yolov2深度学习网络的视频手部检测算法matlab仿真
|
1月前
|
机器学习/深度学习 数据采集 PyTorch
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
|
2天前
|
机器学习/深度学习 算法 计算机视觉
m基于Yolov2深度学习网络的人体喝水行为视频检测系统matlab仿真,带GUI界面
MATLAB 2022a中使用YOLOv2算法对avi视频进行人体喝水行为检测,结果显示成功检测到目标。该算法基于全卷积网络,通过特征提取、锚框和损失函数优化实现。程序首先打乱并分割数据集,利用预训练的ResNet-50和YOLOv2网络结构进行训练,最后保存模型。
12 5
|
10天前
|
机器学习/深度学习 API 算法框架/工具
R语言深度学习:用keras神经网络回归模型预测时间序列数据
R语言深度学习:用keras神经网络回归模型预测时间序列数据
18 0
|
10天前
|
机器学习/深度学习 并行计算 算法
R语言深度学习不同模型对比分析案例
R语言深度学习不同模型对比分析案例
26 0
|
11天前
|
机器学习/深度学习 人工智能 分布式计算
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析
16 0
|
14天前
|
机器学习/深度学习 自然语言处理 算法
探索深度学习中的序列建模新范式:Mamba模型的突破与挑战
【4月更文挑战第13天】Mamba模型,一种新型序列建模架构,通过选择性状态空间提高处理长序列数据的效率,实现线性时间复杂度。在语言、音频和DNA序列建模中展现优秀性能,尤其在大规模预训练中超越Transformer。然而,面对连续信号数据时可能不及LTI模型,且模型参数优化及硬件实现具有挑战性。
51 6
探索深度学习中的序列建模新范式:Mamba模型的突破与挑战
|
1月前
|
机器学习/深度学习 数据可视化 Linux
深度学习模型可视化工具——Netron使用介绍
深度学习模型可视化工具——Netron使用介绍
45 2
|
1月前
|
机器学习/深度学习 资源调度 算法
深度学习模型数值稳定性——梯度衰减和梯度爆炸的说明
深度学习模型数值稳定性——梯度衰减和梯度爆炸的说明
19 0