本周主要论文包括:Hinton 在 NeurIPS 2022 会议上对 Forward-Forward(FF)网络的解读;科学家们创造了有史以来第一个虫洞,研究论文登上《Nature》杂志的封面等研究。
目录
- The Forward-Forward Algorithm: Some Preliminary Investigations
- The Architectural Bottleneck Principle
- Traversable wormhole dynamics on a quantum processor
- Integers expressible as the sum of two rational cubes
- Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models
- An empirical analysis of compute-optimal large language model training
- Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism
- ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:The Forward-Forward Algorithm: Some Preliminary Investigations
- 作者:Geoffrey Hinton
- 论文地址:https://www.cs.toronto.edu/~hinton/FFA13.pdf
摘要:在 NeurIPS 2022 会议上,图灵奖得主、深度学习先驱 Geoffrey Hinton 被邀请发表演讲。Hinton 此次演讲的主题为《The Forward-Forward Algorithm for Training Deep Neural Networks》。在演讲中,Geoffrey Hinton 表示,「机器学习研究社区在意识到深度学习对计算机构建方式的影响上一直表现缓慢。」他认为,人工智能的机器学习形式将引发计算机系统的变革,这是一种将 AI「放入你的烤面包机」的新型软硬结合。
在这次演讲中,Hinton 花了大部分时间谈论一种新的神经网络方法,他称之为 Forward-Forward(FF)网络,它取代了几乎所有神经网络中使用的反向传播技术。Hinton 提出,通过去除反向传播,前向网络可能更合理地接近现实生活中在大脑中发生的情况。
Hinton 表示,FF 方法可能更适合普通的计算硬件。「当前如果要实现这样的事情,我们必须有一个将在专属硬件中运行的学习程序,必须要学习利用该专属硬件的具体属性,而不知道所有这些属性是什么。但我认为前向算法是一个有潜力的选项。」
推荐:图灵奖得主、深度学习先驱 Hinton 在关于深度学习影响计算机构建方式、神经网络算法等方面分享了他的最新观点。
论文 2:The Architectural Bottleneck Principle
- 作者:Tiago Pimentel 、 Josef Valvoda 等
- 论文地址:https://arxiv.org/pdf/2211.06420.pdf
摘要:本文中,来自剑桥大学、苏黎世联邦理工学院的研究者提出架构瓶颈原则 (ABP,architectural bottleneck principle) 作为构建有用 probe 的指南,并试图测量神经网络中的一个组件可以从馈送到它的表示中提取多少信息。为了估计给定组件可以提取多少信息,该研究发现 probe 应该与组件完全相同。根据这一原理,该研究通过注意力 probe 来估计有多少句法信息可用于 transformer。
结果表明,大多数(尽管不是全部)句法信息都可以通过这种简单的注意力头架构提取:英语句子平均包含 31.2 bit 的句法树结构信息,而注意力 probe 可以提取 28.0 bits 信息。更进一步,在 BERT、ALBERT 和 RoBERTa 语言模型上,一个句子的语法树大部分是可以被 probe 提取的,这表明这些模型在组成上下文表示时可以访问句法信息。然而,这些模型是否真的使用了这些信息,仍然是一个悬而未决的问题。
图中展示了主要结果。
推荐:剑桥和 ETH Zurich 的研究者从一个新的角度探讨了 probing,不关心模型编码了多少信息,而是关心它的组件可以提取多少信息。
论文 3:Traversable wormhole dynamics on a quantum processor
- 作者:Daniel Jafferis、Alexander Zlokapa 等
- 论文地址:https://www.nature.com/articles/s41586-022-05424-3
摘要:科学家们创造了有史以来第一个虫洞,研究论文登上了《Nature》杂志的封面。虫洞就像一个全息图,由存储在微型超导电路中的量子比特信息或「qubit」组成。该研究通过操纵量子比特,成功通过虫洞发送了信息。
为了创建虫洞,研究者从一个大的量子系统开始,把它当作一个神经网络。反向传播更新了系统的参数以保持引力特性,而稀疏化减少了系统的大小。他们应用机器学习来学习一个系统,只保留了一个关键的引力特征:使用负能量冲击波的重要性。训练数据集比较了粒子穿越一个用负能量撑开的虫洞和用正能量塌缩的虫洞的动态。通过确保学到的系统保留这种不对称性,他们得到了一个与虫洞动力学一致的稀疏模型。
在粒子撞上负能量冲击波后,混乱的模式有效地反向进行:当粒子从虫洞中出现时,就好像墨滴通过完全撤消其原来的湍流扩散而重新组合在一起。如果在任何一个时间点上,发生了一个小错误,混沌动力学就不会自我撤消,粒子也就无法通过虫洞了。
推荐:科学家造出史上首个「虫洞」,登 Nature 封面。
论文 4:Integers expressible as the sum of two rational cubes
- 作者:Levent Alpöge、Manjul Bhargava 等
- 论文地址:https://arxiv.org/abs/2210.10730
摘要:今年早些时候,三位数学家讨论了数论中最古老的问题之一:有多少整数可以写成两个分数(有理数)的立方之和。例如,数字 6 = (17/21)^3 + (37/21)^3,而 13 = (7/3)^3+(2/3)^3。
几十年来,数学家们一直猜测整数中有一半可以写成这种形式,就像奇数和偶数一样。数学家已经计算出,如果世界七大数学难题之一 BSD 猜想被证实,那么大约 59% 的数字都可以写成两个有理数的立方和。但这个比例数据仅能提供一些参考而已。
如下图所示,蓝色方格内的数字可以写成两个有理数的立方和;其他则不能。
在 10 月下旬发表的一篇论文中,三位数学家证明了至少有 2/21(约 9.5%)和最多 5/6(约 83%)的整数可以写成两个分数的立方之和。值得一提的是,论文作者之一 Manjul Bhargava 在 2014 年因其对椭圆曲线研究做出的贡献而获得菲尔兹奖。
推荐:千禧年大奖难题 BSD 猜想有了新进展。
论文 5:Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models
- 作者:Xichen Pan 、 Pengda Qin 等
- 论文地址:https://arxiv.org/pdf/2211.10950.pdf
摘要:本文中,来自滑铁卢大学、阿里巴巴集团等机构的研究者提出了自回归潜在扩散模型(auto-regressive latent diffusion model, AR-LDM),从故事可视化和故事延续入手。故事的可视化旨在合成一系列图像,用来描述用句子组成的故事;故事延续是故事可视化的一种变体,与故事可视化的目标相同,但基于源框架(即第一帧)完成。这一设置解决了故事可视化中的一些问题(泛化问题和信息限制问题),允许模型生成更有意义和连贯的图像。
具体来说, AR-LDM 采用了历史感知编码模块,其包含一个 CLIP 文本编码器和 BLIP 多模态编码器。对于每一帧,AR-LDM 不仅受当前字幕的指导,而且还以先前生成的图像字幕历史为条件。这允许 AR-LDM 生成相关且连贯的图像。
如下图 2a 所示,AR-LDM 利用历史字幕和图像来生成未来帧。图 2b 显示了 AR-LDM 的详细架构。
推荐:用扩散模型合成连贯视觉故事,输入字幕就能脑补画面,代词 ta 都分得清。
论文 6:An empirical analysis of compute-optimal large language model training
- 作者:Jordan Hoffmann、Sebastian Borgeaud、Arthur Mensch 等
- 论文地址:https://www.deepmind.com/publications/an-empirical-analysis-of-compute-optimal-large-language-model-training
摘要:该研究提出一个问题:给定固定的 FLOPs 预算,模型的大小和训练 token 数应该如何权衡?该研究对这种权衡进行了建模,并基于该模型进行预测,同时训练与该预测相对应的模型。由此产生的模型明显更小,但包含了更多的 token,性能优于其对应模型,同时由于模型尺寸更小,在下游任务中也更实用。总而言之,这项工作为社区在语言模型背景下思考规模的方式提供了新的思路,这也可能对 AI 的其他领域有用。
推荐:NeurIPS 2022 获奖论文。
论文 7:Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism
- 作者:Xupeng Miao、Yujie Wang 等
- 论文地址:https://arxiv.org/abs/2211.13878
摘要:北大河图团队提出了一款分布式训练神器 Galvatron,以实现大模型的高效自动并行,研究论文入选国际顶会 VLDB 2023。
研究者们提出了一些系列工作来探索混合并行的自动搜索:一类工作主要讨论了同时考虑数据并行和模型并行的搜索空间,代表性工作包括 FlexFlow,Tofu,另一类工作则产生于流水并行场景,将其与数据并行相结合,代表性工作包括 PipeDream,DAPPLE。在此基础上还有一些衍生工作,如 Unity、Alpa,进一步扩展了自动并行的探索范围。北大河图团队提出的系统「惊破天」Galvatron 同样属于自动并行搜索的研究领域,但相比于现有工作,该系统主要拥有三方面优势。
Galvatron 工作流程及用户使用接口展示。
推荐:北大河图发布分布式训练神器 Galvatron。