7 Papers & Radios | Hinton前向-前向神经网络训练算法;科学家造出「虫洞」登Nature封面

简介: 7 Papers & Radios | Hinton前向-前向神经网络训练算法;科学家造出「虫洞」登Nature封面

本周主要论文包括:Hinton 在 NeurIPS 2022 会议上对 Forward-Forward(FF)网络的解读;科学家们创造了有史以来第一个虫洞,研究论文登上《Nature》杂志的封面等研究。


目录

  1. The Forward-Forward Algorithm: Some Preliminary Investigations
  2. The Architectural Bottleneck Principle
  3. Traversable wormhole dynamics on a quantum processor
  4. Integers expressible as the sum of two rational cubes
  5. Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models
  6. An empirical analysis of compute-optimal large language model training
  7. Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:The Forward-Forward Algorithm: Some Preliminary Investigations


摘要:在 NeurIPS 2022 会议上,图灵奖得主、深度学习先驱 Geoffrey Hinton 被邀请发表演讲。Hinton 此次演讲的主题为《The Forward-Forward Algorithm for Training Deep Neural Networks》。在演讲中,Geoffrey Hinton 表示,「机器学习研究社区在意识到深度学习对计算机构建方式的影响上一直表现缓慢。」他认为,人工智能的机器学习形式将引发计算机系统的变革,这是一种将 AI「放入你的烤面包机」的新型软硬结合。

在这次演讲中,Hinton 花了大部分时间谈论一种新的神经网络方法,他称之为 Forward-Forward(FF)网络,它取代了几乎所有神经网络中使用的反向传播技术。Hinton 提出,通过去除反向传播,前向网络可能更合理地接近现实生活中在大脑中发生的情况。

Hinton 表示,FF 方法可能更适合普通的计算硬件。「当前如果要实现这样的事情,我们必须有一个将在专属硬件中运行的学习程序,必须要学习利用该专属硬件的具体属性,而不知道所有这些属性是什么。但我认为前向算法是一个有潜力的选项。」

推荐:图灵奖得主、深度学习先驱 Hinton 在关于深度学习影响计算机构建方式、神经网络算法等方面分享了他的最新观点。

论文 2:The Architectural Bottleneck Principle


摘要:本文中,来自剑桥大学、苏黎世联邦理工学院的研究者提出架构瓶颈原则 (ABP,architectural bottleneck principle) 作为构建有用 probe 的指南,并试图测量神经网络中的一个组件可以从馈送到它的表示中提取多少信息。为了估计给定组件可以提取多少信息,该研究发现 probe 应该与组件完全相同。根据这一原理,该研究通过注意力 probe 来估计有多少句法信息可用于 transformer。

结果表明,大多数(尽管不是全部)句法信息都可以通过这种简单的注意力头架构提取:英语句子平均包含 31.2 bit 的句法树结构信息,而注意力 probe 可以提取 28.0 bits 信息。更进一步,在 BERT、ALBERT 和 RoBERTa 语言模型上,一个句子的语法树大部分是可以被 probe 提取的,这表明这些模型在组成上下文表示时可以访问句法信息。然而,这些模型是否真的使用了这些信息,仍然是一个悬而未决的问题。

图中展示了主要结果。

推荐:剑桥和 ETH Zurich 的研究者从一个新的角度探讨了 probing,不关心模型编码了多少信息,而是关心它的组件可以提取多少信息。

论文 3:Traversable wormhole dynamics on a quantum processor


摘要:科学家们创造了有史以来第一个虫洞,研究论文登上了《Nature》杂志的封面。虫洞就像一个全息图,由存储在微型超导电路中的量子比特信息或「qubit」组成。该研究通过操纵量子比特,成功通过虫洞发送了信息。

为了创建虫洞,研究者从一个大的量子系统开始,把它当作一个神经网络。反向传播更新了系统的参数以保持引力特性,而稀疏化减少了系统的大小。他们应用机器学习来学习一个系统,只保留了一个关键的引力特征:使用负能量冲击波的重要性。训练数据集比较了粒子穿越一个用负能量撑开的虫洞和用正能量塌缩的虫洞的动态。通过确保学到的系统保留这种不对称性,他们得到了一个与虫洞动力学一致的稀疏模型。

在粒子撞上负能量冲击波后,混乱的模式有效地反向进行:当粒子从虫洞中出现时,就好像墨滴通过完全撤消其原来的湍流扩散而重新组合在一起。如果在任何一个时间点上,发生了一个小错误,混沌动力学就不会自我撤消,粒子也就无法通过虫洞了。

推荐:科学家造出史上首个「虫洞」,登 Nature 封面。

论文 4:Integers expressible as the sum of two rational cubes


摘要:今年早些时候,三位数学家讨论了数论中最古老的问题之一:有多少整数可以写成两个分数(有理数)的立方之和。例如,数字 6 = (17/21)^3 + (37/21)^3,而 13 = (7/3)^3+(2/3)^3。

几十年来,数学家们一直猜测整数中有一半可以写成这种形式,就像奇数和偶数一样。数学家已经计算出,如果世界七大数学难题之一 BSD 猜想被证实,那么大约 59% 的数字都可以写成两个有理数的立方和。但这个比例数据仅能提供一些参考而已。

如下图所示,蓝色方格内的数字可以写成两个有理数的立方和;其他则不能。

在 10 月下旬发表的一篇论文中,三位数学家证明了至少有 2/21(约 9.5%)和最多 5/6(约 83%)的整数可以写成两个分数的立方之和。值得一提的是,论文作者之一 Manjul Bhargava 在 2014 年因其对椭圆曲线研究做出的贡献而获得菲尔兹奖。

推荐:千禧年大奖难题 BSD 猜想有了新进展。

论文 5:Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models


摘要:本文中,来自滑铁卢大学、阿里巴巴集团等机构的研究者提出了自回归潜在扩散模型(auto-regressive latent diffusion model, AR-LDM),从故事可视化和故事延续入手。故事的可视化旨在合成一系列图像,用来描述用句子组成的故事;故事延续是故事可视化的一种变体,与故事可视化的目标相同,但基于源框架(即第一帧)完成。这一设置解决了故事可视化中的一些问题(泛化问题和信息限制问题),允许模型生成更有意义和连贯的图像。

具体来说, AR-LDM 采用了历史感知编码模块,其包含一个 CLIP 文本编码器和 BLIP 多模态编码器。对于每一帧,AR-LDM 不仅受当前字幕的指导,而且还以先前生成的图像字幕历史为条件。这允许 AR-LDM 生成相关且连贯的图像。

如下图 2a 所示,AR-LDM 利用历史字幕和图像来生成未来帧。图 2b 显示了 AR-LDM 的详细架构。

推荐:用扩散模型合成连贯视觉故事,输入字幕就能脑补画面,代词 ta 都分得清。

论文 6:An empirical analysis of compute-optimal large language model training


摘要:该研究提出一个问题:给定固定的 FLOPs 预算,模型的大小和训练 token 数应该如何权衡?该研究对这种权衡进行了建模,并基于该模型进行预测,同时训练与该预测相对应的模型。由此产生的模型明显更小,但包含了更多的 token,性能优于其对应模型,同时由于模型尺寸更小,在下游任务中也更实用。总而言之,这项工作为社区在语言模型背景下思考规模的方式提供了新的思路,这也可能对 AI 的其他领域有用。

推荐:NeurIPS 2022 获奖论文。

论文 7:Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism


摘要:北大河图团队提出了一款分布式训练神器 Galvatron,以实现大模型的高效自动并行,研究论文入选国际顶会 VLDB 2023。

研究者们提出了一些系列工作来探索混合并行的自动搜索:一类工作主要讨论了同时考虑数据并行和模型并行的搜索空间,代表性工作包括 FlexFlow,Tofu,另一类工作则产生于流水并行场景,将其与数据并行相结合,代表性工作包括 PipeDream,DAPPLE。在此基础上还有一些衍生工作,如 Unity、Alpa,进一步扩展了自动并行的探索范围。北大河图团队提出的系统「惊破天」Galvatron 同样属于自动并行搜索的研究领域,但相比于现有工作,该系统主要拥有三方面优势。

Galvatron 工作流程及用户使用接口展示。

推荐:北大河图发布分布式训练神器 Galvatron。

相关文章
|
3天前
|
机器学习/深度学习 算法
**反向传播算法**在多层神经网络训练中至关重要,它包括**前向传播**、**计算损失**、**反向传播误差**和**权重更新**。
【6月更文挑战第28天】**反向传播算法**在多层神经网络训练中至关重要,它包括**前向传播**、**计算损失**、**反向传播误差**和**权重更新**。数据从输入层流经隐藏层到输出层,计算预测值。接着,比较预测与真实值计算损失。然后,从输出层开始,利用链式法则反向计算误差和梯度,更新权重以减小损失。此过程迭代进行,直到损失收敛或达到训练次数,优化模型性能。反向传播实现了自动微分,使模型能适应训练数据并泛化到新数据。
10 2
|
3天前
|
机器学习/深度学习 存储 算法
基于SFLA算法的神经网络优化matlab仿真
**摘要:** 使用MATLAB2022a,基于SFLA算法优化神经网络,降低训练误差。程序创建12个神经元的前馈网络,训练后计算性能。SFLA算法寻找最优权重和偏置,更新网络并展示训练与测试集的预测效果,以及误差对比。SFLA融合蛙跳与遗传算法,通过迭代和局部全局搜索改善网络性能。通过调整算法参数和与其他优化算法结合,可进一步提升模型预测精度。
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习算法入门:从K-means到神经网络
【6月更文挑战第26天】机器学习入门:从K-means到神经网络。文章涵盖了K-means聚类、逻辑回归、决策树和神经网络的基础原理及应用场景。K-means用于数据分组,逻辑回归适用于二分类,决策树通过特征划分做决策,神经网络则在复杂任务如图像和语言处理中大显身手。是初学者的算法导览。
|
3天前
|
机器学习/深度学习 算法 数据可视化
基于googlenet深度学习网络的睁眼闭眼识别算法matlab仿真
**算法预览图展示睁眼闭眼识别效果;使用Matlab2022a,基于GoogLeNet的CNN模型,对图像进行分类预测并可视化。核心代码包括图像分类及随机样本显示。理论概述中,GoogLeNet以高效Inception模块实现眼部状态的深度学习识别,确保准确性与计算效率。附带三张相关图像。**
|
3天前
|
机器学习/深度学习 并行计算 算法
技术经验解读:《人工神经网络》第9章遗传算法原理
技术经验解读:《人工神经网络》第9章遗传算法原理
|
1天前
|
算法 安全 数据库
基于结点电压法的配电网状态估计算法matlab仿真
**摘要** 该程序实现了基于结点电压法的配电网状态估计算法,旨在提升数据的准确性和可靠性。在MATLAB2022a中运行,显示了状态估计过程中的电压和相位估计值,以及误差随迭代变化的图表。算法通过迭代计算雅可比矩阵,结合基尔霍夫定律解决线性方程组,估算网络节点电压。状态估计过程中应用了高斯-牛顿或莱文贝格-马夸尔特法,处理量测数据并考虑约束条件,以提高估计精度。程序结果以图形形式展示电压幅值和角度估计的比较,以及估计误差的演变,体现了算法在处理配电网状态估计问题的有效性。
|
5天前
|
机器学习/深度学习 自然语言处理 算法
m基于深度学习的OFDM+QPSK链路信道估计和均衡算法误码率matlab仿真,对比LS,MMSE及LMMSE传统算法
**摘要:** 升级版MATLAB仿真对比了深度学习与LS、MMSE、LMMSE的OFDM信道估计算法,新增自动样本生成、复杂度分析及抗频偏性能评估。深度学习在无线通信中,尤其在OFDM的信道估计问题上展现潜力,解决了传统方法的局限。程序涉及信道估计器设计,深度学习模型通过学习导频信息估计信道响应,适应频域变化。核心代码展示了信号处理流程,包括编码、调制、信道模拟、降噪、信道估计和解调。
27 8
|
7天前
|
算法
基于GA遗传优化的混合发电系统优化配置算法matlab仿真
**摘要:** 该研究利用遗传算法(GA)对混合发电系统进行优化配置,旨在最小化风能、太阳能及电池储能的成本并提升系统性能。MATLAB 2022a用于实现这一算法。仿真结果展示了一系列图表,包括总成本随代数变化、最佳适应度随代数变化,以及不同数据的分布情况,如负荷、风速、太阳辐射、弃电、缺电和电池状态等。此外,代码示例展示了如何运用GA求解,并绘制了发电单元的功率输出和年变化。该系统原理基于GA的自然选择和遗传原理,通过染色体编码、初始种群生成、适应度函数、选择、交叉和变异操作来寻找最优容量配置,以平衡成本、效率和可靠性。
|
8天前
|
机器学习/深度学习 算法
基于鲸鱼优化的knn分类特征选择算法matlab仿真
**基于WOA的KNN特征选择算法摘要** 该研究提出了一种融合鲸鱼优化算法(WOA)与K近邻(KNN)分类器的特征选择方法,旨在提升KNN的分类精度。在MATLAB2022a中实现,WOA负责优化特征子集,通过模拟鲸鱼捕食行为的螺旋式和包围策略搜索最佳特征。KNN则用于评估特征子集的性能。算法流程包括WOA参数初始化、特征二进制编码、适应度函数定义(以分类准确率为基准)、WOA迭代搜索及最优解输出。该方法有效地结合了启发式搜索与机器学习,优化特征选择,提高分类性能。
|
8天前
|
机器学习/深度学习 算法 数据可视化
基于BP神经网络的64QAM解调算法matlab性能仿真
**算法预览图省略** MATLAB 2022A版中,运用BP神经网络进行64QAM解调。64QAM通过6比特映射至64复数符号,提高数据速率。BP网络作为非线性解调器,学习失真信号到比特的映射,对抗信道噪声和多径效应。网络在处理非线性失真和复杂情况时展现高适应性和鲁棒性。核心代码部分未显示。