数量级效率优势,原生适配AI计算:光芯片的下一个技术突破要来了

简介: 数量级效率优势,原生适配AI计算:光芯片的下一个技术突破要来了
算力技术的下一个浪潮,从未离我们这么近。

近年来,人工智能等技术的快速发展让计算机的算力需求暴增,但随着摩尔定律失效,传统芯片性能提升速度却开始大幅放缓。全世界都在寻找新的解决方法,光芯片的发展正让人看到希望。

我们经常会看到光芯片技术、光学神经网络的研究登上 Nature 和 Science 等顶尖科学杂志。在一些研究中科学家们指出,光学开关的速度要比现在商用的顶级硅芯片的晶体管快 100 到 1000 倍。

image.png

相比如今顶级 CPU 每代性能约 20% 的提升水平,光芯片可能带来的提升非常夸张,这种技术距离实用化究竟有多远?科学家和创业者那里都有着不同的说法,从工作原理上看,它的确具有传统电子芯片所不具备的诸多能力。

在我们熟悉的常规计算机上,芯片晶体管会通过在两种电状态之间切换来将数据表示为  1 或 0,进而执行各种逻辑运算,为复杂的软件提供算力。而在光芯片(photonic  chip)上,我们可以将数字或模拟信号编码在光的相位或强度上,光在芯片中传播的同时完成计算,运算速度比普通计算机要快很多。

光芯片对工艺尺寸要求也不苛刻,目前研究者们采用的主流工艺是 40nm ,甚至更早的工艺,而且稳定性良好,信息传输不受温度、磁场等常见环境因素影响。

从「一个错误方向」到 AI 技术的希望

使用光进行计算的想法可以追溯到 1950 年代。但随着技术的发展,电子计算机成为了商业化铺开的选择。1980 年代,贝尔实验室曾尝试制造通用化的光芯片,但由于构建可工作的光学晶体管过于困难而失败。

最近几年,人们又完成了一系列光芯片的研究,终于实现了技术突破。

2006 年,英特尔推出首款标准 CMOS 工艺的电子混合硅激光器,基于此技术的超高带宽光学传输架构成为了高性能数据中心的研究方向,人们希望通过光传输降低数据中心的带宽瓶颈。

image.png

更加接近实用化的光计算芯片则在近两年被人们提出。2017  年 6 月,麻省理工学院的一个研究小组尝试将「光子计算」与「人工智能」结合,研究发表在自然 · 光子学子刊的封面文章《Deep  learning with coherent nanophotonic circuits》上。

MIT  团队提出了一种以光子方式代替 CPU 和 GPU 进行 AI  计算的方法,其使用了多束光线,它们的波相互作用产生干涉图案,传达预期操作的结果。研究人员把这种设备称为可编程纳米光子处理器(Programmable  Nanophotonic Processor)。

image.png

该处理器使用一个波导阵列,可以根据需要修改相互连接的方式,为特定的计算编写一组波束。在应用中,它可以以典型的人工智能算法执行计算,但速度要比在传统硅芯片上快得多。

MIT   在研究中展示,利用光计算的独特优势,全光学神经网络的计算速度可以比传统方法速度提升至少两个数量级,能耗效率提升三个数量级。该研究不仅提出了一种可行性高的光芯片方向,又验证了其正好适用于  AI 计算这一算力需求极高的领域。在此之后,光芯片进入了加速发展的阶段。

大学实验室和一些创业公司提出的光芯片大多遵循这样的范式,它们看起来大体和普通计算机芯片相同,但内含一些光波导 。它们通过在微小的通道内分裂和混合光束来进行计算,光线的尺度小至纳米。在硬件底层,电芯片协调光子的部分功能,并提供临时内存存储。

在光芯片完成实验室阶段的展示后,算法、总线和存储等方面的研究也正在进行中,一些光芯片已经可以与数据中心适配,并与大多数主要深度学习框架配合使用。

下一个技术突破

在致力于研发光芯片的创业公司行列中,曦智科技可谓一股重要力量。

2017 年,完成自然子刊封面研究的麻省理工学院研究团队成员成立了全球首家光芯片创业公司曦智科技(Lightelligence),论文的第一作者沈亦晨任联合创始人兼 CEO。

2019 年 4 月,曦智科技正式发布了全球首款光子芯片原型板卡,成功将此前需要占据半个实验室的完整光子计算系统集成到了常规大小的板卡上。这块芯片成功运行了 MNIST 数据集的图像识别任务。

曦智科技成功解决了光芯片处理准确性的问题。在测试中,整个模型超过 95% 的运算是在光子芯片上完成的,其处理准确率已接近电子芯片 (97% 以上),而完成矩阵乘法的用时则可缩短至最先进的电子芯片的 1/100 以内。

image.png

这家起源于集成光子计算突破性研究的公司,迄今为止已筹集了超过 1.1 亿美元融资。其团队一直在致力于构建世界上最广泛的集成光子系统。

最近,光芯片领域即将迎来新的技术进展。12 月 15 日晚 7 点整,曦智科技将会直播发布其最新光子计算处理器,用光子技术突破集成电路的产业边界,展示光子计算的优越性,以及光子技术改变世界的巨大力量。

相关文章
|
4天前
|
存储 人工智能 算法
【AI系统】计算图的优化策略
本文深入探讨了计算图的优化策略,包括算子替换、数据类型转换、存储优化等,旨在提升模型性能和资源利用效率。特别介绍了Flash Attention算法,通过分块计算和重算策略优化Transformer模型的注意力机制,显著减少了内存访问次数,提升了计算效率。此外,文章还讨论了内存优化技术,如Inplace operation和Memory sharing,进一步减少内存消耗,提高计算性能。
57 34
【AI系统】计算图的优化策略
|
3天前
|
机器学习/深度学习 人工智能 前端开发
【AI系统】计算图的控制流实现
计算图作为有向无环图(DAG),能够抽象神经网络模型,但在编程中遇到控制流语句(如if、else、while、for)时,如何表示成为难题。引入控制流后,开发者可构建更复杂的模型结构,但部署含控制流的模型至不支持Python的设备上较为困难。目前,PyTorch仅支持Python控制流,而TensorFlow通过引入控制流原语来解决此问题。计算图的动态与静态实现各有优劣,动态图易于调试,静态图利于优化。
21 5
【AI系统】计算图的控制流实现
|
3天前
|
机器学习/深度学习 存储 人工智能
【AI系统】计算图与自动微分
自动求导利用链式法则计算雅可比矩阵,从结果节点逆向追溯计算路径,适用于神经网络训练中损失值对网络参数的梯度计算。AI框架中,自动微分与反向传播紧密相连,通过构建计算图实现高效梯度计算,支持动态和静态计算图两种模式。动态图如PyTorch,适合灵活调试;静态图如TensorFlow,利于性能优化。
25 6
【AI系统】计算图与自动微分
|
3天前
|
机器学习/深度学习 人工智能 算法
【AI系统】计算图挑战与未来
当前主流AI框架采用计算图抽象神经网络计算,以张量和算子为核心元素,有效表达模型计算逻辑。计算图不仅简化数据流动,支持内存优化和算子调度,还促进了自动微分功能的实现,区分静态图和动态图两种形式。未来,计算图将在图神经网络、大数据融合、推理部署及科学计算等领域持续演进,适应更复杂的计算需求。
32 5
【AI系统】计算图挑战与未来
|
3天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】计算图基本介绍
近年来,AI框架如TensorFlow和PyTorch通过计算图描述神经网络,推动了AI技术的发展。计算图不仅抽象了神经网络的计算表达,还支持了模型算子的高效执行、梯度计算及参数训练。随着模型复杂度增加,如MOE、GAN、Attention Transformer等,AI框架需具备快速分析模型结构的能力,以优化训练效率。计算图与自动微分紧密结合,实现了从前向计算到反向传播的全流程自动化。
24 4
【AI系统】计算图基本介绍
|
4天前
|
机器学习/深度学习 存储 人工智能
【AI系统】离线图优化技术
本文回顾了计算图优化的各个方面,包括基础优化、扩展优化和布局与内存优化,旨在提高计算效率。基础优化涵盖常量折叠、冗余节点消除、算子融合、算子替换和算子前移等技术。这些技术通过减少不必要的计算和内存访问,提高模型的执行效率。文章还探讨了AI框架和推理引擎在图优化中的应用差异,为深度学习模型的优化提供了全面的指导。
19 5
【AI系统】离线图优化技术
|
4天前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
26 4
【AI系统】计算图优化架构
|
4天前
|
机器学习/深度学习 存储 人工智能
【AI系统】自定义计算图 IR
本文介绍了模型转换的方法及流程,重点讲解了计算图的自定义方法和优化技术。通过IR(Intermediate Representation)将不同AI框架的模型转换为统一格式,实现跨平台高效部署。计算图由张量和算子构成,支持多种数据类型和内存排布格式,通过算子融合等优化技术提高模型性能。文章还详细说明了如何使用FlatBuffers定义计算图结构,包括张量、算子和网络模型的定义,为自定义神经网络提供了实践指南。
19 3
【AI系统】自定义计算图 IR
|
2天前
|
机器学习/深度学习 人工智能 边缘计算
24/7全时守护:AI视频监控技术的深度实现与应用分享
本文深入解析了AI视频监控系统在车间安全领域的技术实现与应用,涵盖多源数据接入、边缘计算、深度学习驱动的智能分析及高效预警机制,通过具体案例展示了系统的实时性、高精度和易部署特性,为工业安全管理提供了新路径。
|
3天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】计算图原理
本文介绍了AI框架中使用计算图来抽象神经网络计算的必要性和优势,探讨了计算图的基本构成,包括标量、向量、矩阵、张量等数据结构及其操作,并详细解释了计算图如何帮助解决AI工程化中的挑战。此外,文章还通过PyTorch实例展示了动态计算图的特点和实现方法,包括节点(张量或函数)和边(依赖关系)的定义,以及如何通过自定义Function实现正向和反向传播逻辑。
28 7