7 Papers & Radios | Hinton前向-前向神经网络训练算法;科学家造出「虫洞」登Nature封面

简介: 7 Papers & Radios | Hinton前向-前向神经网络训练算法;科学家造出「虫洞」登Nature封面

本周主要论文包括:Hinton 在 NeurIPS 2022 会议上对 Forward-Forward(FF)网络的解读;科学家们创造了有史以来第一个虫洞,研究论文登上《Nature》杂志的封面等研究。


目录

  1. The Forward-Forward Algorithm: Some Preliminary Investigations
  2. The Architectural Bottleneck Principle
  3. Traversable wormhole dynamics on a quantum processor
  4. Integers expressible as the sum of two rational cubes
  5. Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models
  6. An empirical analysis of compute-optimal large language model training
  7. Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:The Forward-Forward Algorithm: Some Preliminary Investigations


摘要:在 NeurIPS 2022 会议上,图灵奖得主、深度学习先驱 Geoffrey Hinton 被邀请发表演讲。Hinton 此次演讲的主题为《The Forward-Forward Algorithm for Training Deep Neural Networks》。在演讲中,Geoffrey Hinton 表示,「机器学习研究社区在意识到深度学习对计算机构建方式的影响上一直表现缓慢。」他认为,人工智能的机器学习形式将引发计算机系统的变革,这是一种将 AI「放入你的烤面包机」的新型软硬结合。

在这次演讲中,Hinton 花了大部分时间谈论一种新的神经网络方法,他称之为 Forward-Forward(FF)网络,它取代了几乎所有神经网络中使用的反向传播技术。Hinton 提出,通过去除反向传播,前向网络可能更合理地接近现实生活中在大脑中发生的情况。

Hinton 表示,FF 方法可能更适合普通的计算硬件。「当前如果要实现这样的事情,我们必须有一个将在专属硬件中运行的学习程序,必须要学习利用该专属硬件的具体属性,而不知道所有这些属性是什么。但我认为前向算法是一个有潜力的选项。」

推荐:图灵奖得主、深度学习先驱 Hinton 在关于深度学习影响计算机构建方式、神经网络算法等方面分享了他的最新观点。

论文 2:The Architectural Bottleneck Principle


摘要:本文中,来自剑桥大学、苏黎世联邦理工学院的研究者提出架构瓶颈原则 (ABP,architectural bottleneck principle) 作为构建有用 probe 的指南,并试图测量神经网络中的一个组件可以从馈送到它的表示中提取多少信息。为了估计给定组件可以提取多少信息,该研究发现 probe 应该与组件完全相同。根据这一原理,该研究通过注意力 probe 来估计有多少句法信息可用于 transformer。

结果表明,大多数(尽管不是全部)句法信息都可以通过这种简单的注意力头架构提取:英语句子平均包含 31.2 bit 的句法树结构信息,而注意力 probe 可以提取 28.0 bits 信息。更进一步,在 BERT、ALBERT 和 RoBERTa 语言模型上,一个句子的语法树大部分是可以被 probe 提取的,这表明这些模型在组成上下文表示时可以访问句法信息。然而,这些模型是否真的使用了这些信息,仍然是一个悬而未决的问题。

图中展示了主要结果。

推荐:剑桥和 ETH Zurich 的研究者从一个新的角度探讨了 probing,不关心模型编码了多少信息,而是关心它的组件可以提取多少信息。

论文 3:Traversable wormhole dynamics on a quantum processor


摘要:科学家们创造了有史以来第一个虫洞,研究论文登上了《Nature》杂志的封面。虫洞就像一个全息图,由存储在微型超导电路中的量子比特信息或「qubit」组成。该研究通过操纵量子比特,成功通过虫洞发送了信息。

为了创建虫洞,研究者从一个大的量子系统开始,把它当作一个神经网络。反向传播更新了系统的参数以保持引力特性,而稀疏化减少了系统的大小。他们应用机器学习来学习一个系统,只保留了一个关键的引力特征:使用负能量冲击波的重要性。训练数据集比较了粒子穿越一个用负能量撑开的虫洞和用正能量塌缩的虫洞的动态。通过确保学到的系统保留这种不对称性,他们得到了一个与虫洞动力学一致的稀疏模型。

在粒子撞上负能量冲击波后,混乱的模式有效地反向进行:当粒子从虫洞中出现时,就好像墨滴通过完全撤消其原来的湍流扩散而重新组合在一起。如果在任何一个时间点上,发生了一个小错误,混沌动力学就不会自我撤消,粒子也就无法通过虫洞了。

推荐:科学家造出史上首个「虫洞」,登 Nature 封面。

论文 4:Integers expressible as the sum of two rational cubes


摘要:今年早些时候,三位数学家讨论了数论中最古老的问题之一:有多少整数可以写成两个分数(有理数)的立方之和。例如,数字 6 = (17/21)^3 + (37/21)^3,而 13 = (7/3)^3+(2/3)^3。

几十年来,数学家们一直猜测整数中有一半可以写成这种形式,就像奇数和偶数一样。数学家已经计算出,如果世界七大数学难题之一 BSD 猜想被证实,那么大约 59% 的数字都可以写成两个有理数的立方和。但这个比例数据仅能提供一些参考而已。

如下图所示,蓝色方格内的数字可以写成两个有理数的立方和;其他则不能。

在 10 月下旬发表的一篇论文中,三位数学家证明了至少有 2/21(约 9.5%)和最多 5/6(约 83%)的整数可以写成两个分数的立方之和。值得一提的是,论文作者之一 Manjul Bhargava 在 2014 年因其对椭圆曲线研究做出的贡献而获得菲尔兹奖。

推荐:千禧年大奖难题 BSD 猜想有了新进展。

论文 5:Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models


摘要:本文中,来自滑铁卢大学、阿里巴巴集团等机构的研究者提出了自回归潜在扩散模型(auto-regressive latent diffusion model, AR-LDM),从故事可视化和故事延续入手。故事的可视化旨在合成一系列图像,用来描述用句子组成的故事;故事延续是故事可视化的一种变体,与故事可视化的目标相同,但基于源框架(即第一帧)完成。这一设置解决了故事可视化中的一些问题(泛化问题和信息限制问题),允许模型生成更有意义和连贯的图像。

具体来说, AR-LDM 采用了历史感知编码模块,其包含一个 CLIP 文本编码器和 BLIP 多模态编码器。对于每一帧,AR-LDM 不仅受当前字幕的指导,而且还以先前生成的图像字幕历史为条件。这允许 AR-LDM 生成相关且连贯的图像。

如下图 2a 所示,AR-LDM 利用历史字幕和图像来生成未来帧。图 2b 显示了 AR-LDM 的详细架构。

推荐:用扩散模型合成连贯视觉故事,输入字幕就能脑补画面,代词 ta 都分得清。

论文 6:An empirical analysis of compute-optimal large language model training


摘要:该研究提出一个问题:给定固定的 FLOPs 预算,模型的大小和训练 token 数应该如何权衡?该研究对这种权衡进行了建模,并基于该模型进行预测,同时训练与该预测相对应的模型。由此产生的模型明显更小,但包含了更多的 token,性能优于其对应模型,同时由于模型尺寸更小,在下游任务中也更实用。总而言之,这项工作为社区在语言模型背景下思考规模的方式提供了新的思路,这也可能对 AI 的其他领域有用。

推荐:NeurIPS 2022 获奖论文。

论文 7:Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism


摘要:北大河图团队提出了一款分布式训练神器 Galvatron,以实现大模型的高效自动并行,研究论文入选国际顶会 VLDB 2023。

研究者们提出了一些系列工作来探索混合并行的自动搜索:一类工作主要讨论了同时考虑数据并行和模型并行的搜索空间,代表性工作包括 FlexFlow,Tofu,另一类工作则产生于流水并行场景,将其与数据并行相结合,代表性工作包括 PipeDream,DAPPLE。在此基础上还有一些衍生工作,如 Unity、Alpa,进一步扩展了自动并行的探索范围。北大河图团队提出的系统「惊破天」Galvatron 同样属于自动并行搜索的研究领域,但相比于现有工作,该系统主要拥有三方面优势。

Galvatron 工作流程及用户使用接口展示。

推荐:北大河图发布分布式训练神器 Galvatron。

相关文章
|
2月前
|
机器学习/深度学习 PyTorch 算法框架/工具
目标检测实战(一):CIFAR10结合神经网络加载、训练、测试完整步骤
这篇文章介绍了如何使用PyTorch框架,结合CIFAR-10数据集,通过定义神经网络、损失函数和优化器,进行模型的训练和测试。
153 2
目标检测实战(一):CIFAR10结合神经网络加载、训练、测试完整步骤
|
2月前
|
机器学习/深度学习 数据可视化 计算机视觉
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
这篇文章详细介绍了如何通过可视化深度学习中每层特征层来理解网络的内部运作,并使用ResNet系列网络作为例子,展示了如何在训练过程中加入代码来绘制和保存特征图。
67 1
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
|
27天前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
52 8
|
2月前
|
机器学习/深度学习 数据采集 算法
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
这篇博客文章介绍了如何使用包含多个网络和多种训练策略的框架来完成多目标分类任务,涵盖了从数据准备到训练、测试和部署的完整流程,并提供了相关代码和配置文件。
66 0
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
|
2月前
|
机器学习/深度学习 算法 TensorFlow
深度学习笔记(五):学习率过大过小对于网络训练有何影响以及如何解决
学习率是深度学习中的关键超参数,它影响模型的训练进度和收敛性,过大或过小的学习率都会对网络训练产生负面影响,需要通过适当的设置和调整策略来优化。
519 0
深度学习笔记(五):学习率过大过小对于网络训练有何影响以及如何解决
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature
【9月更文挑战第24天】近年来,深度学习在人工智能领域取得巨大成功,但在连续学习任务中面临“损失可塑性”问题,尤其在深度强化学习中更为突出。加拿大阿尔伯塔大学的研究人员提出了一种名为“持续反向传播”的算法,通过选择性地重新初始化网络中的低效用单元,保持模型的可塑性。该算法通过评估每个连接和权重的贡献效用来决定是否重新初始化隐藏单元,并引入成熟度阈值保护新单元。实验表明,该算法能显著提升连续学习任务的表现,尤其在深度强化学习领域效果明显。然而,算法也存在计算复杂性和成熟度阈值设置等问题。
80 2
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Nature子刊:基于内生复杂性,自动化所新类脑网络构筑人工智能与神经科科学的桥梁
【9月更文挑战第11天】中国科学院自动化研究所的研究人员提出了一种基于内生复杂性的新型类脑网络模型,通过模拟人脑内部神经元间的复杂互动来提升AI系统的智能与适应性。此模型利用图神经网络(GNN)并设计分层图结构对应人脑不同功能区,引入自适应机制根据输入数据调整结构。实验表明,此模型在图像分类及自然语言处理等任务中表现出显著提升的性能,并且处理复杂数据时更具备适应性和鲁棒性。论文链接:https://www.nature.com/articles/s43588-024-00674-9。
71 7
|
2月前
|
机器学习/深度学习 算法
【机器学习】揭秘反向传播:深度学习中神经网络训练的奥秘
【机器学习】揭秘反向传播:深度学习中神经网络训练的奥秘
|
3月前
|
机器学习/深度学习 人工智能 算法
首个像人类一样思考的网络!Nature子刊:AI模拟人类感知决策
【9月更文挑战第8天】近日,《自然》子刊发表的一篇关于RTNet神经网络的论文引起广泛关注。RTNet能模拟人类感知决策思维,其表现与人类相近,在反应时间和准确率上表现出色。这项研究证明了神经网络可模拟人类思维方式,为人工智能发展带来新启示。尽管存在争议,如是否真正理解人类思维机制以及潜在的伦理问题,但RTNet为人工智能技术突破及理解人类思维机制提供了新途径。论文详细内容见《自然》官网。
76 3
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
深度学习实践:构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行分类
本文详细介绍如何使用PyTorch构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行图像分类。从数据预处理、模型定义到训练过程及结果可视化,文章全面展示了深度学习项目的全流程。通过实际操作,读者可以深入了解CNN在图像分类任务中的应用,并掌握PyTorch的基本使用方法。希望本文为您的深度学习项目提供有价值的参考与启示。