一种新的神经形态计算架构,可以更有效地运行深度神经网络

简介: 一种新的神经形态计算架构,可以更有效地运行深度神经网络

随着人工智能和深度学习技术变得越来越先进,工程师将需要创建能够可靠且高效地运行其计算的硬件。受人脑结构和生物学启发的神经形态计算硬件,在支持复杂的深度神经网络(DNN)的操作方面可能有巨大前景。基于尖峰的神经形态硬件有望实现比 GPU 等标准硬件更节能的 DNN。但这需要我们了解如何在基于事件的稀疏触发机制中模拟 DNN,否则会失去能量优势。特别是,解决序列处理任务的 DNN 通常使用长短期记忆单元,这些单元很难用很少的尖峰来模拟。英特尔和格拉茨理工大学的合作团队表明,许多生物神经元的一个现象,每个尖峰后的超极化后电流缓慢,这提供了一种有效的解决方案。后超极化电流可以很容易地在支持多室神经元模型的神经形态硬件中实现,例如英特尔的 Loihi 芯片。高斯滤波器逼近理论解释了,为什么超极化后神经元可以模拟长短期记忆单元的功能。这产生了一种高能效的时间序列分类方法。此外,它为高效执行一类重要的大型 DNN 提供了基础。该研究以「A Long Short-Term Memory for AI Applications in Spike-based Neuromorphic Hardware」为题,于 2022 年 5 月 19 日发布在《Nature Machine Intelligence》。背景能源消耗是使用深度神经网络(DNN)等 AI 方法更广泛应用的主要障碍,尤其是在边缘设备中。基于尖峰的神经形态硬件是有望缓解这一问题的一个方向。这项研究的部分灵感来自大脑,它运行着更复杂、更大的神经网络,总能耗仅为 20 W。这种惊人的能量效率的一个关键因素是大脑中的神经元平均每秒仅发出几次信号。相比之下,典型 DNN 的单元发出一个输出值,因此消耗能量的频率要高几个数量级。但是,确定哪些类型的 DNN 可以通过神经形态硬件中稀疏活跃的神经元以节能的方式实现,以用于现代 AI 解决方案仍然是一个悬而未决的问题。在大多数情况下,这需要重新考虑 DNN 设计原则。一个更具体的开放性问题是,用于序列处理任务的 DNN 的长短期记忆(LSTM)单元,如何在基于尖峰的神经形态硬件中以良好的能效实现。「我们已经证明,如果使用受大脑启发的神经元和神经网络架构在神经形态硬件上解决相同的问题,则可以更高效地实现一大类 DNN,即那些处理时间扩展输入(例如句子)的 DNN。」 进行这项研究的研究人员之一 Wolfgang Maass 说,「此外,我们认为 DNN 对于更高层次的认知功能至关重要,例如寻找故事中句子之间的关系并回答有关其内容的问题。」简介该团队的研究人员展示了生物神经元的一个特征,即目前尚未包含在神经形态硬件模型中的缓慢变化的内部电流的存在,赋予脉冲神经网络(SNN)与 DNN 中的 LSTM 单元类似的工作记忆能力。特别是,缓慢的后超极化 (AHP) 电流会降低生物神经元在最近的放电活动后再次放电的准备情况。图示:具有 AHP 电流的两室 LIF 神经元模型的示意图和动力学。(来源:论文)这种效应在神经科学中被称为尖峰频率适应。艾伦研究所的实验数据表明,新皮质中相当数量的神经元(人类额叶中超过 30% 的兴奋性神经元)表现出尖峰频率适应。该研究表明,AHP 神经元不仅通过减少放电活动来节省能量,而且还为解决序列处理任务提供了 LSTM 单元的真正替代方案,并支持通过时间反向传播(BPTT)进行训练。生物神经元和标准脉冲神经元模型之间的另一个主要区别是生物神经元将其膜电位保持在相对狭窄的范围内。相比之下,当使用正则化项对网络进行训练以诱导低放电率时,模型的膜电位通常会呈现极负值。这实际上从当前的网络计算中删除了其中的许多。研究人员引入了一种膜电压正则化原理来缓解这个问题,并支持极其稀疏发射尖峰 DNN 的设计。他们在一个常用的基于脉冲的芯片上分析了这两个原理的功能含义:英特尔的神经形态芯片 Loihi,并发现能量延迟积(EDP)显着降低。与功率相比,EDP 说明了每个任务/工作负载/计算的真正能源和时间成本。同时,这些实现表明,大脑和机器智能中认知计算的两个特征——工作记忆和关于概念或对象之间关系的推理——实际上可以在基于峰值的神经形态硬件中比在GPU(用于实现DNN的标准计算硬件)中更有效地实现。深度讨论已经证明,机器学习和 AI 中 DNN 进行序列处理的关键工具 LSTM 单元可以在基于尖峰的神经形态硬件中被具有生物启发的尖峰频率适应机制的神经元取代:AHP 电流。这种方法得到了理论原理的支持,即来自滤波器近似理论的 PSPR。在神经元模型中添加一个用于 AHP 电流的隔间还具有通过为梯度的反向传播创建通往过去的高速公路来增强 BPTT 训练结果的优势。由于 AHP 神经元也可用于通用网络计算,因此该解决方案不需要将计算单元和工作内存单元分开——它是一种内存计算解决方案。图示:用于 sMNIST 任务的 AHP-SNN 的 PSPR、梯度传输和能耗。(来源:论文)这减少了通常由计算单元和内存单元之间的流量引起的延迟和能耗。由此产生的用于解决基准时间序列分类任务 sMNIST 的基于尖峰的解决方案比 CPU 和 GPU 上 LSTM 网络的最先进实现的能效高三个数量级,同时实现更低的延迟和几乎相同的精度。使用 AHP 神经元使研究人员能够将涉及大型前馈网络组件,以及 LSTM 单元的大型 DNN 移植到基于脉冲的硬件中。该团队专注于关系网络的例子,因为它们通过支持推理故事或图像中对象之间的关系,使人工智能能力实现了质的飞跃。一个节能的基于尖峰的关系网络实现需要一种方法,使它们能够及时使用稀有事件(尖峰)而不是基于速率的神经代码,包括在它们的前馈网络模块中。研究人员已经证明,在整个计算过程中,每个神经元的稀疏度远小于一个峰值对于关系网络是可以实现的。图示:电压正则化及其与尖峰率正则化相结合的执行稀疏点火机制的能力。(来源:论文)通过在训练期间使用一种新的电压正则化方法,结合迫使网络在特定时间点产生决策的输出约定,以及一个具有短膜时间常数且无不应期的尖峰神经元模型,这一点成为可能,该模型支持严格的局部时间计算操作。Loihi 上关系网络的最终实现提供了 Loihi 上大型 DNN 的示例,其中这种基于尖峰的硬件变得比 GPU 更节能。此外,在当前和未来的神经形态硬件中,由此产生的非常稀疏的活跃尖峰 RelNet 可能会变得更加节能,其中神经核心中神经元的突触连接数量比 Loihi 上的限制更少。这种限制迫使研究人员将尖峰 RelNet 分布在 22 个 Loihi 芯片上的 2,308 个神经核上,从而增加了延迟和能耗。尽管如此,与 GPU 相比,关系网络的 EDP 显着降低。事实上,对 Loihi 上 DNN 实施过程讨论,总结出的结论是,它代表了「迄今为止最大的深度学习网络,与传统架构相比显示出收益」。因此,关系网络代表了一类 DNN,与 CNN 相比,它可以更有效地移植到基于脉冲的硬件上。

图示:Spiking RelNet 在 Loihi 上的放置和优化。(来源:论文)

根据其他团队的研究结果,可以预期神经形态硬件中的关系网络不仅可以用于解决自然语言中的问答任务,还可以用于推理图像或听觉场景中对象之间的关系 。这可以在高能效神经形态硬件的 AI 能力上提供质的飞跃。另一个有趣的研究是,通过使用 e-prop 而不是 BPTT 来启用这些基于脉冲的 LSTM 网络替代方案的片上训练,这已被证明对 LSNN 非常有效。这些尖峰网络也已经证明了一次性学习能力,并且所需的方法很可能也将启用这些网络的一次性片上训练。最后,将 AHP 电流添加到神经形态硬件中的尖峰神经元模型,可以被视为将新皮质中神经元的更复杂的点神经元模型移植到此类硬件中的第一步。如果在额外的神经元隔室中再增加一个电流,则可以实现各种 GLIF3 神经元模型阵列,这些模型可以说是神经形态硬件中通用皮层微电路的最先进模型。这将为神经形态硬件在计算神经科学中的新用途打开大门:用于模拟大脑神经网络的最先进的大型模型,比目前可能的速度和能量要少得多。这有可能成为 Loihi 或 SpiNNaker 等神经形态硬件的主要新应用,支持标准脉冲神经元模型的这种生物改进的实施。同时,神经形态硬件对于回答计算神经科学中一个重要的开放性问题可能变得很重要:在大脑进化过程中出现的新皮层中神经元类型的惊人多样性的计算优势是什么?论文链接:https://www.nature.com/articles/s42256-022-00480-w相关报道:https://techxplore.com/news/2022-06-neuromorphic-architecture-deep-neural-networks.html

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
2天前
|
分布式计算 监控 网络协议
Hadoop集群长时间运行网络延迟原因
【6月更文挑战第20天】
10 2
|
16天前
|
机器学习/深度学习
【从零开始学习深度学习】33.语言模型的计算方式及循环神经网络RNN简介
【从零开始学习深度学习】33.语言模型的计算方式及循环神经网络RNN简介
【从零开始学习深度学习】33.语言模型的计算方式及循环神经网络RNN简介
|
1月前
|
运维 监控 安全
|
1天前
|
机器学习/深度学习 算法
**反向传播算法**在多层神经网络训练中至关重要,它包括**前向传播**、**计算损失**、**反向传播误差**和**权重更新**。
【6月更文挑战第28天】**反向传播算法**在多层神经网络训练中至关重要,它包括**前向传播**、**计算损失**、**反向传播误差**和**权重更新**。数据从输入层流经隐藏层到输出层,计算预测值。接着,比较预测与真实值计算损失。然后,从输出层开始,利用链式法则反向计算误差和梯度,更新权重以减小损失。此过程迭代进行,直到损失收敛或达到训练次数,优化模型性能。反向传播实现了自动微分,使模型能适应训练数据并泛化到新数据。
8 2
|
5天前
|
机器学习/深度学习 计算机视觉 网络架构
是VGG网络的主要特点和架构描述
是VGG网络的主要特点和架构描述:
12 1
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
深度揭秘:深度学习框架下的神经网络架构进化
从感知机到深度学习的革命,神经网络经历了从简单到复杂的演变。反向传播使多层网络实用化,深度信念网络(DBN)和卷积神经网络(CNN)的兴起,尤其是AlexNet在ImageNet竞赛中的胜利,开启了深度学习黄金时代。ResNet的残差学习解决了深度梯度消失问题。循环神经网络(RNN)、LSTM和GRU改进了序列处理,Transformer模型(如BERT和GPT)引领了自然语言处理的变革。超大规模模型如GPT-3和通义千问展示惊人能力,影响医疗、自动驾驶等多个领域。未来,平衡模型复杂度、计算成本与应用需求将是关键。
51 2
|
9天前
|
机器学习/深度学习 自然语言处理 算法
用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高
【6月更文挑战第20天】研究人员运用神经架构搜索(NAS)压缩LLM,如LLaMA2-7B,找到小而精准的子网,降低内存与计算成本,保持甚至提升性能。实验显示在多个任务上,模型大小减半,速度加快,精度不变或提升。NAS虽需大量计算资源,但结合量化技术,能有效优化大型语言模型。[论文链接](https://arxiv.org/pdf/2405.18377)**
17 2
|
11天前
|
机器学习/深度学习 网络架构 计算机视觉
VGG深度卷积神经网络架构
VGG深度卷积神经网络架构
|
3天前
|
网络协议 Java 网络安全
架构面试题汇总:网络协议34问(2024版)
架构面试题汇总:网络协议34问(2024版)
|
30天前
|
传感器 数据可视化 JavaScript
物联网架构:感知层、网络层和应用层
【5月更文挑战第30天】物联网(IoT)由感知层、网络层和应用层构成。感知层利用传感器(如DHT11)收集环境数据;网络层通过ESP8266等设备将数据传输至云端;应用层提供用户服务,如Node-RED实现数据可视化。示例代码展示了Arduino读取温湿度,ESP8266连接Wi-Fi及Node-RED数据可视化流程。物联网架构为数据处理与服务提供全面支持,预示其在各领域广阔的应用前景。
39 2

热门文章

最新文章