深度神经网络每秒分类近20亿张图像,新型类脑光学分类器芯片登上Nature

简介: 深度神经网络每秒分类近20亿张图像,新型类脑光学分类器芯片登上Nature

应用从计算机视觉到医学诊断的深度神经网络,通常使用基于时钟的处理器来实现,其中计算速度主要受时钟频率和内存访问时间的限制。在光学领域,尽管光子计算取得了进步,但缺乏可扩展的片上光学非线性和光子器件的损耗限制了光学深度网络的可扩展性。在这里,宾夕法尼亚大学的研究团队报告了一种集成的端到端光子深度神经网络(PDNN),该网络通过直接处理撞击在片上像素阵列上的光波,在它们通过神经元层传播时执行亚纳秒级图像分类。在每个神经元中,光学执行线性计算,光电实现非线性激活函数,允许分类时间低于 570 ps,与最先进的数字平台的单个时钟周期相当。均匀分布的供应光可提供相同的每个神经元光输出范围,从而可扩展到大规模 PDNN。证明了手写字母的二类和四类分类,准确率分别高于 93.8% 和 89.8%。光学数据的直接、无时钟处理消除了模数转换和对大内存模块的需求,从而为下一代深度学习系统提供更快、更节能的神经网络。该研究以「An on-chip photonic deep neural network for image classification」为题,于 2022 年 6 月 1 日发布在《Nature》。模仿人脑工作的深度神经网络现在通常为计算机视觉、语音识别等提供支持。然而,它们越来越受到用于实现它们的硬件的限制。现在,科学家们已经在光子微芯片上开发了一种深度神经网络,可以在不到一纳秒的时间内对图像进行分类,这与最先进的电子设备中的时钟的单个滴答时间大致相同。在人工神经网络中,被称为「神经元」的组件被输入数据并协同解决问题,例如识别人脸。神经网络反复调整其神经元之间的联系,并查看由此产生的行为模式是否能更好地找到解决方案。随着时间的推移,网络会发现哪些模式最适合计算结果。然后它采用这些作为默认值,模仿人脑中的学习过程。如果一个神经网络拥有多层神经元,它就被称为「深度」。尽管这些人工智能系统越来越多地找到现实世界的应用程序,但是鉴于运行它们的硬件,它们面临着许多重大挑战。首先,它们通常使用基于数字时钟的平台来实现,例如图形处理单元(GPU),这将它们的计算速度限制在时钟频率上——对于大多数最先进的 GPU 来说小于 3 GHz。其次,与可以计算和存储数据的生物神经元不同,传统电子设备将内存和处理单元分开。在这些组件之间来回穿梭数据会浪费时间和精力。此外,原始视觉数据通常需要转换为数字电子信号,耗时较长。此外,通常需要大内存单元来存储图像和视频,从而引发潜在的隐私问题。受人脑中分布式数据处理的启发,深度神经网络旨在使用互连的神经元(节点)层来处理输入数据,这些神经元可以使用一组训练数据进行训练以学习特定任务。一旦经过训练,该网络就可以在一组新的数据上以高精度执行相同的任务。深度神经网络的一般架构:首先排列输入数据,然后使用第一层的神经元进行处理,然后是中间(隐藏)层。分类结果出现在最后(输出)层的输出。网络中的每个神经元通过将其输入的加权和传递给非线性激活函数来生成输出。

图 1:传统和光子-电子深度神经网络。(来源:论文)

深度神经网络通常使用基于数字时钟的平台来实现,例如图形处理单元 (GPU) 或专用集成电路 (ASIC)。GPU 是高度可重构的处理器,能够并行执行大量计算,但它们的计算时间主要受时钟频率(最先进的 GPU 大多小于 3 GHz)和内存访问时间的限制。与 GPU 相比,使用 ASIC 实现深度网络可以在单位能耗性能方面提供一到两个数量级的改进。然而,它们通常面临与 GPU 类似的挑战,对于具有大量神经元层的更复杂的网络来说,GPU 变得更加显著。此外,对于数字实现平台,原始输入数据通常需要转换为电域、数字化和处理。通常,需要一个大的内存单元来存储数据集,这限制了处理时间,并且在图像或视频分类的情况下,可能会带来隐私问题。光学频率下可用的大带宽以及纳米光子波导(用作互连)的低传播损耗,使光子集成电路成为实现快速和节能处理单元的有前途的平台,可以增强传统数字处理器的性能。据报道,深度神经网络的光子实现提供了关键特性,例如网络内的高速线性操作和低损耗高带宽连接。然而,到目前为止,神经网络的所有演示仅限于台式设置或深度学习网络部分的集成,并且由于缺乏可扩展的片上非线性功能和级联光子器件的无补偿损耗,尚未演示用于数据分类的可扩展、完全集成的光子深度学习系统。宾夕法尼亚大学的研究人员报告了第一个集成的端到端 PDNN 的演示,它使用传播计算来执行亚纳秒图像分类。目标图像在用作输入像素的光栅耦合器阵列上形成,其中照射在不同像素上的光波被耦合到相应的纳米光子波导中,并在光通过 PDNN 芯片上不同层的神经元传播时进行处理。通过供应光的均匀分布,网络中的所有神经元具有相同的光输出范围,从而可以扩展到大量层。作为概念验证,PDNN 芯片用于手写字母的二类和四类分类,准确率分别高于 93.8% 和 89.8%。测量表明,PDNN 系统能够实现 570 ps 的端到端分类时间;这与最先进的数字平台的单个时钟周期相当。作为比较点,使用 Keras 在 Python 环境中实现的传统深度神经网络分类器在相同数据集上实现了 96% 的准确率。已实现的 PDNN 具有直接、无时钟的输入图像处理功能,无需进行光电检测、缩放和放大、模拟到数字转换、数据对齐和大型内存模块;从而为下一代深度学习系统实现更快、更节能、更具隐私意识的神经网络。PDNN 芯片集成在 9.3 mm^2 的封装内。实现的 PDNN 芯片的架构和 PDNN 芯片内的 N 输入光子神经元的结构分别如图 1c、d 所示。目标图像在输入的 5 × 6 像素阵列上形成,该阵列分为四个重叠的 3 × 4 像素子图像。输入纳米光子波导布置成将每个子图像的像素路由到输入层中的 12-input 神经元,形成卷积层。卷积层通常用于图像/模式识别应用程序的深度网络中,允许更少的连接数和更有效的特征提取。第一层的输出完全连接到第二层的三个神经元。同样,第二层的三个输出与第三层的两个神经元全连接,产生两个网络输出,Out1 和 Out2。图 2:光子-电子神经元的实现。具有 N 个光学输入(Ini)和一个光学输出的光子神经元的结构如图 2a 所示,其中光学执行线性计算,光电实现非线性激活函数。首先,使用 500 微米长的 P 掺杂-本征-N 掺杂(PIN)电流控制衰减器阵列来单独调整神经元每个输入纳米光子波导中的光功率。PIN 衰减器的横截面及其显微照片如图 2b 所示。通过正向偏置 PIN 结和注入载流子,可以调整每个神经元输入的光波功率(即信号权重)。为了添加权重调整后的信号,衰减器的输出使用硅锗(SiGe)光电二极管(PD)进行光电检测,并将产生的光电流组合以生成神经元输入的加权和 isum为了生成神经元输出,神经元输入的加权和通过非线性激活函数传递;这里,提供快速收敛的整流线性单元(ReLU)函数用作非线性激活函数,并通过使用 PN 结微环调制器(MRM)的电光非线性响应来实现。在图 2a 中,电流 isum(即输入的加权和)被放大并使用线性跨阻放大器 (TIA) 转换为电压。MRM(驱动正向偏置 PN 结)的输入电压 VM 是通过将直流电压 Vb 添加到 TIA 输出电压 VTIA 来生成的。耦合到芯片中的激光功率均匀分布在所有神经元(在所有层内),为每个神经元中的 MRM 输入提供电源光。考虑 MRM 的谐振波长 λres 最初与供应光波长 λlaser 对齐的情况。当 MRM 的输入电压 VM 小于阈值电压 VTH 时,PN 结保持关闭状态,没有载流子注入 PN 结。因此,λres 保持与 λlaser 对齐,并且神经元光输出功率 POut 保持低,因为供应光被 MRM 的陷波响应过滤。当isum足够大以至于VM超过VTH时,PN结开启并且注入的载流子改变PN结中光波导的折射率。结果,λres 移动,神经元光输出功率增加。配置为电光 ReLU 的 MRM 的测量响应如图 2h 所示,其中 POut/PS 密切遵循作为 VM 函数的整流线性特性。可以通过设置 Vb 来调整 ReLU 阈值 (VTH)。图 3:实现的光子分类器芯片。(来源:论文)一般来说,所提出的 PDNN 芯片的分类速度主要受 MRM、SiGe PD 和 TIA 带宽的限制,因为处理是在波在芯片内传播时执行的。整个端到端 PDNN 分类器(即直接成像,将输入数据光学传输到第一层,几层线性和非线性操作)的传播时间(对应于端到端分类时间)测得约为 570 ps。「它每秒可以对近 20 亿张图像进行分类。」该研究的资深作者、费城宾夕法尼亚大学的电气工程师 Firooz Aflatouni 说,「作为参考,传统的视频帧速率为每秒 24 到 120 帧。」此外,每层线性运算的计算速度低于 60 ps,这对应于每层的线性计算密度和能量效率分别约为 3.5 TOPS mm-2 (TOPS:每秒万亿次操作)和 345 fJ OP-1。使用提供电子和光子器件单片集成的商业 SOI 制造工艺,可以实现数十千兆赫兹的总带宽,允许类似 PDNN 架构的总分类时间低于 100 ps。PDNN 架构可以扩展为具有更多像素的分类器,用于对更高分辨率的图像和更复杂的模式进行超快速分类。与全电子实现相比,PDNN 架构中低损耗纳米光子波导和分离器的可用性显著降低了信号扇出和分配的挑战。将重叠子图像路由到输入层的神经元(以执行卷积)的复杂性可以通过使用具有多个光子路由层的制造过程来解决,允许更复杂的光子路由,和/或通过平铺多个像素阵列 。「通过传播计算,计算发生在波通过介质传播时,可以以光速执行计算。」Aflatouni 说。研究人员现在正在尝试使用这些设备对视频和 3D 对象进行分类,并使用具有更多像素和神经元的更大芯片对更高分辨率的图像进行分类。此外,「这项技术的应用不仅限于图像和视频分类。」Aflatouni 说,「任何可以转换到光域的信号,例如音频和语音,都可以使用这项技术几乎瞬间进行分类。」论文链接:https://www.nature.com/articles/s41586-022-04714-0相关报道:https://spectrum.ieee.org/photonic-neural-network

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
1月前
|
机器学习/深度学习 监控 定位技术
神经网络也有空间意识!学会在Minecraft创建地图,登上Nature子刊
【8月更文挑战第14天】国际团队利用预测编码神经网络,在Minecraft中实现了空间认知突破。他们在《自然》子刊发表的研究显示,神经网络能学习游戏内的空间关系并构建地图,不仅标记地形与物体,还能理解其间的相对位置。此成果揭示了神经网络在空间认知方面的潜力,引发了关于其真实空间意识及可能应用的讨论。论文链接:https://www.nature.com/articles/s42256-024-00863-1。
118 66
|
8天前
|
网络协议 算法 网络安全
CCF推荐A类会议和期刊总结(计算机网络领域)
本文总结了中国计算机学会(CCF)推荐的计算机网络领域A类会议和期刊,这些会议和期刊代表了该领域的顶尖水平,汇聚了全球顶尖研究成果并引领前沿发展。A类期刊包括IEEE Journal on Selected Areas in Communications、IEEE Transactions on Mobile Computing等;A类会议包括SIGCOMM、MobiCom等。关注这些平台有助于研究人员紧跟技术前沿。
CCF推荐A类会议和期刊总结(计算机网络领域)
|
8天前
|
传感器 算法 物联网
CCF推荐C类会议和期刊总结:(计算机网络领域)
该文档总结了中国计算机学会(CCF)推荐的计算机网络领域C类会议和期刊,详细列出了各类会议和期刊的全称、出版社、dblp文献网址及研究领域,为研究者提供了广泛的学术交流资源和平台。
CCF推荐C类会议和期刊总结:(计算机网络领域)
|
8天前
|
传感器 网络协议
CCF推荐B类会议和期刊总结:(计算机网络领域)
中国计算机学会(CCF)推荐的B类会议和期刊在计算机网络领域具有较高水平。本文总结了所有B类会议和期刊的详细信息,包括全称、出版社、dblp文献网址及研究领域,涵盖传感器网络、移动网络、网络协议等多个方向,为学者提供重要学术交流平台。
CCF推荐B类会议和期刊总结:(计算机网络领域)
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
Nature子刊:基于内生复杂性,自动化所新类脑网络构筑人工智能与神经科科学的桥梁
【9月更文挑战第11天】中国科学院自动化研究所的研究人员提出了一种基于内生复杂性的新型类脑网络模型,通过模拟人脑内部神经元间的复杂互动来提升AI系统的智能与适应性。此模型利用图神经网络(GNN)并设计分层图结构对应人脑不同功能区,引入自适应机制根据输入数据调整结构。实验表明,此模型在图像分类及自然语言处理等任务中表现出显著提升的性能,并且处理复杂数据时更具备适应性和鲁棒性。论文链接:https://www.nature.com/articles/s43588-024-00674-9。
20 7
|
7天前
|
机器学习/深度学习 自然语言处理 计算机视觉
用于图像和用于自然语言的神经网络区别
主要区别总结 数据结构:图像数据是二维像素矩阵,具有空间结构;文本数据是一维序列,具有时间结构。 网络架构:图像处理常用CNN,注重局部特征提取;自然语言处理常用RNN/LSTM/Transformer,注重序列和全局依赖。 操作单元:图像处理中的卷积核在空间上操作;自然语言处理中的注意力机制在序列上操作。
9 2
|
9天前
|
机器学习/深度学习 人工智能 算法
首个像人类一样思考的网络!Nature子刊:AI模拟人类感知决策
【9月更文挑战第8天】近日,《自然》子刊发表的一篇关于RTNet神经网络的论文引起广泛关注。RTNet能模拟人类感知决策思维,其表现与人类相近,在反应时间和准确率上表现出色。这项研究证明了神经网络可模拟人类思维方式,为人工智能发展带来新启示。尽管存在争议,如是否真正理解人类思维机制以及潜在的伦理问题,但RTNet为人工智能技术突破及理解人类思维机制提供了新途径。论文详细内容见《自然》官网。
22 3
|
8天前
|
机器学习/深度学习 数据采集 数据可视化
深度学习实践:构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行分类
本文详细介绍如何使用PyTorch构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行图像分类。从数据预处理、模型定义到训练过程及结果可视化,文章全面展示了深度学习项目的全流程。通过实际操作,读者可以深入了解CNN在图像分类任务中的应用,并掌握PyTorch的基本使用方法。希望本文为您的深度学习项目提供有价值的参考与启示。
|
1月前
|
算法 前端开发 数据挖掘
【类脑智能】脑网络通信模型分类及量化指标(附思维导图)
本文概述了脑网络通信模型的分类、算法原理及量化指标,介绍了扩散过程、路由协议和参数模型三种通信模型,并详细讨论了它们的性能指标、优缺点以及在脑网络研究中的应用,同时提供了思维导图以帮助理解这些概念。
32 3
【类脑智能】脑网络通信模型分类及量化指标(附思维导图)
|
30天前
|
机器学习/深度学习 人工智能 编解码
【神经网络】基于对抗神经网络的图像生成是如何实现的?
对抗神经网络,尤其是生成对抗网络(GAN),在图像生成领域扮演着重要角色。它们通过一个有趣的概念——对抗训练——来实现图像的生成。以下将深入探讨GAN是如何实现基于对抗神经网络的图像生成的
18 3

热门文章

最新文章