7 Papers & Radios | Hinton前向-前向神经网络训练算法;科学家造出「虫洞」登Nature封面

简介: 7 Papers & Radios | Hinton前向-前向神经网络训练算法;科学家造出「虫洞」登Nature封面

本周主要论文包括:Hinton 在 NeurIPS 2022 会议上对 Forward-Forward(FF)网络的解读;科学家们创造了有史以来第一个虫洞,研究论文登上《Nature》杂志的封面等研究。


目录

  1. The Forward-Forward Algorithm: Some Preliminary Investigations
  2. The Architectural Bottleneck Principle
  3. Traversable wormhole dynamics on a quantum processor
  4. Integers expressible as the sum of two rational cubes
  5. Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models
  6. An empirical analysis of compute-optimal large language model training
  7. Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:The Forward-Forward Algorithm: Some Preliminary Investigations


摘要:在 NeurIPS 2022 会议上,图灵奖得主、深度学习先驱 Geoffrey Hinton 被邀请发表演讲。Hinton 此次演讲的主题为《The Forward-Forward Algorithm for Training Deep Neural Networks》。在演讲中,Geoffrey Hinton 表示,「机器学习研究社区在意识到深度学习对计算机构建方式的影响上一直表现缓慢。」他认为,人工智能的机器学习形式将引发计算机系统的变革,这是一种将 AI「放入你的烤面包机」的新型软硬结合。

在这次演讲中,Hinton 花了大部分时间谈论一种新的神经网络方法,他称之为 Forward-Forward(FF)网络,它取代了几乎所有神经网络中使用的反向传播技术。Hinton 提出,通过去除反向传播,前向网络可能更合理地接近现实生活中在大脑中发生的情况。

Hinton 表示,FF 方法可能更适合普通的计算硬件。「当前如果要实现这样的事情,我们必须有一个将在专属硬件中运行的学习程序,必须要学习利用该专属硬件的具体属性,而不知道所有这些属性是什么。但我认为前向算法是一个有潜力的选项。」

推荐:图灵奖得主、深度学习先驱 Hinton 在关于深度学习影响计算机构建方式、神经网络算法等方面分享了他的最新观点。

论文 2:The Architectural Bottleneck Principle


摘要:本文中,来自剑桥大学、苏黎世联邦理工学院的研究者提出架构瓶颈原则 (ABP,architectural bottleneck principle) 作为构建有用 probe 的指南,并试图测量神经网络中的一个组件可以从馈送到它的表示中提取多少信息。为了估计给定组件可以提取多少信息,该研究发现 probe 应该与组件完全相同。根据这一原理,该研究通过注意力 probe 来估计有多少句法信息可用于 transformer。

结果表明,大多数(尽管不是全部)句法信息都可以通过这种简单的注意力头架构提取:英语句子平均包含 31.2 bit 的句法树结构信息,而注意力 probe 可以提取 28.0 bits 信息。更进一步,在 BERT、ALBERT 和 RoBERTa 语言模型上,一个句子的语法树大部分是可以被 probe 提取的,这表明这些模型在组成上下文表示时可以访问句法信息。然而,这些模型是否真的使用了这些信息,仍然是一个悬而未决的问题。

图中展示了主要结果。

推荐:剑桥和 ETH Zurich 的研究者从一个新的角度探讨了 probing,不关心模型编码了多少信息,而是关心它的组件可以提取多少信息。

论文 3:Traversable wormhole dynamics on a quantum processor


摘要:科学家们创造了有史以来第一个虫洞,研究论文登上了《Nature》杂志的封面。虫洞就像一个全息图,由存储在微型超导电路中的量子比特信息或「qubit」组成。该研究通过操纵量子比特,成功通过虫洞发送了信息。

为了创建虫洞,研究者从一个大的量子系统开始,把它当作一个神经网络。反向传播更新了系统的参数以保持引力特性,而稀疏化减少了系统的大小。他们应用机器学习来学习一个系统,只保留了一个关键的引力特征:使用负能量冲击波的重要性。训练数据集比较了粒子穿越一个用负能量撑开的虫洞和用正能量塌缩的虫洞的动态。通过确保学到的系统保留这种不对称性,他们得到了一个与虫洞动力学一致的稀疏模型。

在粒子撞上负能量冲击波后,混乱的模式有效地反向进行:当粒子从虫洞中出现时,就好像墨滴通过完全撤消其原来的湍流扩散而重新组合在一起。如果在任何一个时间点上,发生了一个小错误,混沌动力学就不会自我撤消,粒子也就无法通过虫洞了。

推荐:科学家造出史上首个「虫洞」,登 Nature 封面。

论文 4:Integers expressible as the sum of two rational cubes


摘要:今年早些时候,三位数学家讨论了数论中最古老的问题之一:有多少整数可以写成两个分数(有理数)的立方之和。例如,数字 6 = (17/21)^3 + (37/21)^3,而 13 = (7/3)^3+(2/3)^3。

几十年来,数学家们一直猜测整数中有一半可以写成这种形式,就像奇数和偶数一样。数学家已经计算出,如果世界七大数学难题之一 BSD 猜想被证实,那么大约 59% 的数字都可以写成两个有理数的立方和。但这个比例数据仅能提供一些参考而已。

如下图所示,蓝色方格内的数字可以写成两个有理数的立方和;其他则不能。

在 10 月下旬发表的一篇论文中,三位数学家证明了至少有 2/21(约 9.5%)和最多 5/6(约 83%)的整数可以写成两个分数的立方之和。值得一提的是,论文作者之一 Manjul Bhargava 在 2014 年因其对椭圆曲线研究做出的贡献而获得菲尔兹奖。

推荐:千禧年大奖难题 BSD 猜想有了新进展。

论文 5:Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models


摘要:本文中,来自滑铁卢大学、阿里巴巴集团等机构的研究者提出了自回归潜在扩散模型(auto-regressive latent diffusion model, AR-LDM),从故事可视化和故事延续入手。故事的可视化旨在合成一系列图像,用来描述用句子组成的故事;故事延续是故事可视化的一种变体,与故事可视化的目标相同,但基于源框架(即第一帧)完成。这一设置解决了故事可视化中的一些问题(泛化问题和信息限制问题),允许模型生成更有意义和连贯的图像。

具体来说, AR-LDM 采用了历史感知编码模块,其包含一个 CLIP 文本编码器和 BLIP 多模态编码器。对于每一帧,AR-LDM 不仅受当前字幕的指导,而且还以先前生成的图像字幕历史为条件。这允许 AR-LDM 生成相关且连贯的图像。

如下图 2a 所示,AR-LDM 利用历史字幕和图像来生成未来帧。图 2b 显示了 AR-LDM 的详细架构。

推荐:用扩散模型合成连贯视觉故事,输入字幕就能脑补画面,代词 ta 都分得清。

论文 6:An empirical analysis of compute-optimal large language model training


摘要:该研究提出一个问题:给定固定的 FLOPs 预算,模型的大小和训练 token 数应该如何权衡?该研究对这种权衡进行了建模,并基于该模型进行预测,同时训练与该预测相对应的模型。由此产生的模型明显更小,但包含了更多的 token,性能优于其对应模型,同时由于模型尺寸更小,在下游任务中也更实用。总而言之,这项工作为社区在语言模型背景下思考规模的方式提供了新的思路,这也可能对 AI 的其他领域有用。

推荐:NeurIPS 2022 获奖论文。

论文 7:Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism


摘要:北大河图团队提出了一款分布式训练神器 Galvatron,以实现大模型的高效自动并行,研究论文入选国际顶会 VLDB 2023。

研究者们提出了一些系列工作来探索混合并行的自动搜索:一类工作主要讨论了同时考虑数据并行和模型并行的搜索空间,代表性工作包括 FlexFlow,Tofu,另一类工作则产生于流水并行场景,将其与数据并行相结合,代表性工作包括 PipeDream,DAPPLE。在此基础上还有一些衍生工作,如 Unity、Alpa,进一步扩展了自动并行的探索范围。北大河图团队提出的系统「惊破天」Galvatron 同样属于自动并行搜索的研究领域,但相比于现有工作,该系统主要拥有三方面优势。

Galvatron 工作流程及用户使用接口展示。

推荐:北大河图发布分布式训练神器 Galvatron。

相关文章
|
5天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
25 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
21天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
65 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
23天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于贝叶斯优化CNN-LSTM网络的数据分类识别算法matlab仿真
本项目展示了基于贝叶斯优化(BO)的CNN-LSTM网络在数据分类中的应用。通过MATLAB 2022a实现,优化前后效果对比明显。核心代码附带中文注释和操作视频,涵盖BO、CNN、LSTM理论,特别是BO优化CNN-LSTM网络的batchsize和学习率,显著提升模型性能。
|
28天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于贝叶斯优化卷积神经网络(Bayes-CNN)的多因子数据分类识别算法matlab仿真
本项目展示了贝叶斯优化在CNN中的应用,包括优化过程、训练与识别效果对比,以及标准CNN的识别结果。使用Matlab2022a开发,提供完整代码及视频教程。贝叶斯优化通过构建代理模型指导超参数优化,显著提升模型性能,适用于复杂数据分类任务。
|
25天前
|
算法 安全 数据安全/隐私保护
基于game-based算法的动态频谱访问matlab仿真
本算法展示了在认知无线电网络中,通过游戏理论优化动态频谱访问,提高频谱利用率和物理层安全性。程序运行效果包括负载因子、传输功率、信噪比对用户效用和保密率的影响分析。软件版本:Matlab 2022a。完整代码包含详细中文注释和操作视频。
|
10天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
11天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
12天前
|
存储 算法 决策智能
基于免疫算法的TSP问题求解matlab仿真
旅行商问题(TSP)是一个经典的组合优化问题,目标是寻找经过每个城市恰好一次并返回起点的最短回路。本文介绍了一种基于免疫算法(IA)的解决方案,该算法模拟生物免疫系统的运作机制,通过克隆选择、变异和免疫记忆等步骤,有效解决了TSP问题。程序使用MATLAB 2022a版本运行,展示了良好的优化效果。
|
11天前
|
机器学习/深度学习 算法 芯片
基于GSP工具箱的NILM算法matlab仿真
基于GSP工具箱的NILM算法Matlab仿真,利用图信号处理技术解析家庭或建筑内各电器的独立功耗。GSPBox通过图的节点、边和权重矩阵表示电气系统,实现对未知数据的有效分类。系统使用MATLAB2022a版本,通过滤波或分解技术从全局能耗信号中提取子设备的功耗信息。
|
11天前
|
机器学习/深度学习 算法 5G
基于MIMO系统的SDR-AltMin混合预编码算法matlab性能仿真
基于MIMO系统的SDR-AltMin混合预编码算法通过结合半定松弛和交替最小化技术,优化大规模MIMO系统的预编码矩阵,提高信号质量。Matlab 2022a仿真结果显示,该算法能有效提升系统性能并降低计算复杂度。核心程序包括预编码和接收矩阵的设计,以及不同信噪比下的性能评估。
29 3

热门文章

最新文章