一种新的神经形态计算架构,可以更有效地运行深度神经网络

简介: 一种新的神经形态计算架构,可以更有效地运行深度神经网络

随着人工智能和深度学习技术变得越来越先进,工程师将需要创建能够可靠且高效地运行其计算的硬件。受人脑结构和生物学启发的神经形态计算硬件,在支持复杂的深度神经网络(DNN)的操作方面可能有巨大前景。基于尖峰的神经形态硬件有望实现比 GPU 等标准硬件更节能的 DNN。但这需要我们了解如何在基于事件的稀疏触发机制中模拟 DNN,否则会失去能量优势。特别是,解决序列处理任务的 DNN 通常使用长短期记忆单元,这些单元很难用很少的尖峰来模拟。英特尔和格拉茨理工大学的合作团队表明,许多生物神经元的一个现象,每个尖峰后的超极化后电流缓慢,这提供了一种有效的解决方案。后超极化电流可以很容易地在支持多室神经元模型的神经形态硬件中实现,例如英特尔的 Loihi 芯片。高斯滤波器逼近理论解释了,为什么超极化后神经元可以模拟长短期记忆单元的功能。这产生了一种高能效的时间序列分类方法。此外,它为高效执行一类重要的大型 DNN 提供了基础。该研究以「A Long Short-Term Memory for AI Applications in Spike-based Neuromorphic Hardware」为题,于 2022 年 5 月 19 日发布在《Nature Machine Intelligence》。背景能源消耗是使用深度神经网络(DNN)等 AI 方法更广泛应用的主要障碍,尤其是在边缘设备中。基于尖峰的神经形态硬件是有望缓解这一问题的一个方向。这项研究的部分灵感来自大脑,它运行着更复杂、更大的神经网络,总能耗仅为 20 W。这种惊人的能量效率的一个关键因素是大脑中的神经元平均每秒仅发出几次信号。相比之下,典型 DNN 的单元发出一个输出值,因此消耗能量的频率要高几个数量级。但是,确定哪些类型的 DNN 可以通过神经形态硬件中稀疏活跃的神经元以节能的方式实现,以用于现代 AI 解决方案仍然是一个悬而未决的问题。在大多数情况下,这需要重新考虑 DNN 设计原则。一个更具体的开放性问题是,用于序列处理任务的 DNN 的长短期记忆(LSTM)单元,如何在基于尖峰的神经形态硬件中以良好的能效实现。「我们已经证明,如果使用受大脑启发的神经元和神经网络架构在神经形态硬件上解决相同的问题,则可以更高效地实现一大类 DNN,即那些处理时间扩展输入(例如句子)的 DNN。」 进行这项研究的研究人员之一 Wolfgang Maass 说,「此外,我们认为 DNN 对于更高层次的认知功能至关重要,例如寻找故事中句子之间的关系并回答有关其内容的问题。」简介该团队的研究人员展示了生物神经元的一个特征,即目前尚未包含在神经形态硬件模型中的缓慢变化的内部电流的存在,赋予脉冲神经网络(SNN)与 DNN 中的 LSTM 单元类似的工作记忆能力。特别是,缓慢的后超极化 (AHP) 电流会降低生物神经元在最近的放电活动后再次放电的准备情况。图示:具有 AHP 电流的两室 LIF 神经元模型的示意图和动力学。(来源:论文)这种效应在神经科学中被称为尖峰频率适应。艾伦研究所的实验数据表明,新皮质中相当数量的神经元(人类额叶中超过 30% 的兴奋性神经元)表现出尖峰频率适应。该研究表明,AHP 神经元不仅通过减少放电活动来节省能量,而且还为解决序列处理任务提供了 LSTM 单元的真正替代方案,并支持通过时间反向传播(BPTT)进行训练。生物神经元和标准脉冲神经元模型之间的另一个主要区别是生物神经元将其膜电位保持在相对狭窄的范围内。相比之下,当使用正则化项对网络进行训练以诱导低放电率时,模型的膜电位通常会呈现极负值。这实际上从当前的网络计算中删除了其中的许多。研究人员引入了一种膜电压正则化原理来缓解这个问题,并支持极其稀疏发射尖峰 DNN 的设计。他们在一个常用的基于脉冲的芯片上分析了这两个原理的功能含义:英特尔的神经形态芯片 Loihi,并发现能量延迟积(EDP)显着降低。与功率相比,EDP 说明了每个任务/工作负载/计算的真正能源和时间成本。同时,这些实现表明,大脑和机器智能中认知计算的两个特征——工作记忆和关于概念或对象之间关系的推理——实际上可以在基于峰值的神经形态硬件中比在GPU(用于实现DNN的标准计算硬件)中更有效地实现。深度讨论已经证明,机器学习和 AI 中 DNN 进行序列处理的关键工具 LSTM 单元可以在基于尖峰的神经形态硬件中被具有生物启发的尖峰频率适应机制的神经元取代:AHP 电流。这种方法得到了理论原理的支持,即来自滤波器近似理论的 PSPR。在神经元模型中添加一个用于 AHP 电流的隔间还具有通过为梯度的反向传播创建通往过去的高速公路来增强 BPTT 训练结果的优势。由于 AHP 神经元也可用于通用网络计算,因此该解决方案不需要将计算单元和工作内存单元分开——它是一种内存计算解决方案。图示:用于 sMNIST 任务的 AHP-SNN 的 PSPR、梯度传输和能耗。(来源:论文)这减少了通常由计算单元和内存单元之间的流量引起的延迟和能耗。由此产生的用于解决基准时间序列分类任务 sMNIST 的基于尖峰的解决方案比 CPU 和 GPU 上 LSTM 网络的最先进实现的能效高三个数量级,同时实现更低的延迟和几乎相同的精度。使用 AHP 神经元使研究人员能够将涉及大型前馈网络组件,以及 LSTM 单元的大型 DNN 移植到基于脉冲的硬件中。该团队专注于关系网络的例子,因为它们通过支持推理故事或图像中对象之间的关系,使人工智能能力实现了质的飞跃。一个节能的基于尖峰的关系网络实现需要一种方法,使它们能够及时使用稀有事件(尖峰)而不是基于速率的神经代码,包括在它们的前馈网络模块中。研究人员已经证明,在整个计算过程中,每个神经元的稀疏度远小于一个峰值对于关系网络是可以实现的。图示:电压正则化及其与尖峰率正则化相结合的执行稀疏点火机制的能力。(来源:论文)通过在训练期间使用一种新的电压正则化方法,结合迫使网络在特定时间点产生决策的输出约定,以及一个具有短膜时间常数且无不应期的尖峰神经元模型,这一点成为可能,该模型支持严格的局部时间计算操作。Loihi 上关系网络的最终实现提供了 Loihi 上大型 DNN 的示例,其中这种基于尖峰的硬件变得比 GPU 更节能。此外,在当前和未来的神经形态硬件中,由此产生的非常稀疏的活跃尖峰 RelNet 可能会变得更加节能,其中神经核心中神经元的突触连接数量比 Loihi 上的限制更少。这种限制迫使研究人员将尖峰 RelNet 分布在 22 个 Loihi 芯片上的 2,308 个神经核上,从而增加了延迟和能耗。尽管如此,与 GPU 相比,关系网络的 EDP 显着降低。事实上,对 Loihi 上 DNN 实施过程讨论,总结出的结论是,它代表了「迄今为止最大的深度学习网络,与传统架构相比显示出收益」。因此,关系网络代表了一类 DNN,与 CNN 相比,它可以更有效地移植到基于脉冲的硬件上。

图示:Spiking RelNet 在 Loihi 上的放置和优化。(来源:论文)

根据其他团队的研究结果,可以预期神经形态硬件中的关系网络不仅可以用于解决自然语言中的问答任务,还可以用于推理图像或听觉场景中对象之间的关系 。这可以在高能效神经形态硬件的 AI 能力上提供质的飞跃。另一个有趣的研究是,通过使用 e-prop 而不是 BPTT 来启用这些基于脉冲的 LSTM 网络替代方案的片上训练,这已被证明对 LSNN 非常有效。这些尖峰网络也已经证明了一次性学习能力,并且所需的方法很可能也将启用这些网络的一次性片上训练。最后,将 AHP 电流添加到神经形态硬件中的尖峰神经元模型,可以被视为将新皮质中神经元的更复杂的点神经元模型移植到此类硬件中的第一步。如果在额外的神经元隔室中再增加一个电流,则可以实现各种 GLIF3 神经元模型阵列,这些模型可以说是神经形态硬件中通用皮层微电路的最先进模型。这将为神经形态硬件在计算神经科学中的新用途打开大门:用于模拟大脑神经网络的最先进的大型模型,比目前可能的速度和能量要少得多。这有可能成为 Loihi 或 SpiNNaker 等神经形态硬件的主要新应用,支持标准脉冲神经元模型的这种生物改进的实施。同时,神经形态硬件对于回答计算神经科学中一个重要的开放性问题可能变得很重要:在大脑进化过程中出现的新皮层中神经元类型的惊人多样性的计算优势是什么?论文链接:https://www.nature.com/articles/s42256-022-00480-w相关报道:https://techxplore.com/news/2022-06-neuromorphic-architecture-deep-neural-networks.html

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
14天前
|
机器学习/深度学习 数据采集 人工智能
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
层次化Softmax算法通过引入Huffman树结构,将传统Softmax的计算复杂度从线性降至对数级别,显著提升了大规模词汇表的训练效率。该算法不仅优化了计算效率,还在处理大规模离散分布问题上提供了新的思路。文章详细介绍了Huffman树的构建、节点编码、概率计算及基于Gensim的实现方法,并讨论了工程实现中的优化策略与应用实践。
61 15
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
|
16天前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
45 4
【AI系统】计算图优化架构
|
5天前
|
数据采集 监控 安全
公司网络监控软件:Zig 语言底层优化保障系统高性能运行
在数字化时代,Zig 语言凭借出色的底层控制能力和高性能特性,为公司网络监控软件的优化提供了有力支持。从数据采集、连接管理到数据分析,Zig 语言确保系统高效稳定运行,精准处理海量网络数据,保障企业信息安全与业务连续性。
26 4
|
19天前
|
机器学习/深度学习 人工智能 API
【AI系统】昇腾异构计算架构 CANN
本文介绍了昇腾 AI 异构计算架构 CANN,涵盖硬件层面的达·芬奇架构和软件层面的全栈支持,旨在提供高性能神经网络计算所需的硬件基础和软件环境。通过多层级架构,CANN 实现了高效的 AI 应用开发与性能优化,支持多种主流 AI 框架,并提供丰富的开发工具和接口,助力开发者快速构建和优化神经网络模型。
37 1
|
26天前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。
|
1月前
|
机器学习/深度学习 自然语言处理 前端开发
前端神经网络入门:Brain.js - 详细介绍和对比不同的实现 - CNN、RNN、DNN、FFNN -无需准备环境打开浏览器即可测试运行-支持WebGPU加速
本文介绍了如何使用 JavaScript 神经网络库 **Brain.js** 实现不同类型的神经网络,包括前馈神经网络(FFNN)、深度神经网络(DNN)和循环神经网络(RNN)。通过简单的示例和代码,帮助前端开发者快速入门并理解神经网络的基本概念。文章还对比了各类神经网络的特点和适用场景,并简要介绍了卷积神经网络(CNN)的替代方案。
125 1
|
1月前
|
运维 Serverless 数据处理
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
95 1
|
1月前
|
运维 监控 Serverless
Serverless架构在图像处理等计算密集型应用中展现了显著的优势
Serverless架构在图像处理等计算密集型应用中展现了显著的优势
38 1
|
1月前
|
供应链 监控 安全
网络安全中的零信任架构:从概念到部署
网络安全中的零信任架构:从概念到部署
|
2月前
|
运维 Serverless 数据处理
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
63 3

热门文章

最新文章