生成式人工智能(AI)的广泛应用正彻底改变着计算资源的设计和部署方式。这种AI利用自然语言帮助用户理解非结构化数据,IBM的Nicole Saulnier认为,这是一项重大突破,有望使AI工具能够在各种任务中辅助人类专家。然而,面对这些大型语言模型(LLMs)的计算需求,挑战重重。
挑战与机遇
据斯坦福研究员Hugo Chen介绍,目前最知名的LLM之一,GPT-4,使用了惊人的1.76万亿个参数和120个网络层。根据加州大学圣塔芭芭拉分校的研究员T. Bhattacharya的说法,要将误差率减半可能需要500倍的计算资源。这样庞大的计算需求即使对于专用数据中心来说也是巨大的挑战,而对于边缘设备来说几乎是不可能的。
边缘计算涵盖了从电动汽车到远程传感器等各种设备。这些设备通常无法直接访问“云”资源,并且需要将功耗最小化。边缘应用通常涉及通常处于关闭状态的设备,等待语音命令、运动触发或其他传感器输入。
资源优化的探索
机器学习模型的资源需求主要是由于涉及的数据集规模庞大,但它们的实际计算通常是简单的。矩阵-向量乘法(MVM)占据了计算负载的多达90%。在传统的冯·诺伊曼体系结构中,数据在内存和计算单元之间的移动是一个主要瓶颈。而“内存中计算”(CIM)体系结构则试图直接在内存中对数据进行操作。
虽然CIM SRAM阵列已经面世,但新兴技术如RRAM承诺能够实现显著的功耗和面积节约。相比之下,SRAM不仅需要功耗来维持数据,而且占用相对较大的硅空间,每个单元需要六个晶体管。RRAM则是非易失性的,使用单个电阻器,可能由每个单元的单个晶体管支持。
生物大脑和效率
与生物大脑相比,数字逻辑虽然效率不高但极其准确。生物大脑具有极高的多功能性和低功耗,但无法与数字浮点计算的准确性匹敌。因此,CIM设计需要在效率、多功能性和准确性之间进行复杂的权衡。
在生物大脑中,树突对序列做出反应,而不是对单个电尖峰做出反应。只有特定的尖峰序列才会激发给定的树突。为了构建序列敏感电子设备,斯坦福大学研究小组在单个通道上方放置了 3 个铁电门。如果靠近源极的第一个栅极首先触发,它会产生一个反转层并允许电流流动。然后,第二个栅极延伸反型层,第三个栅极也是如此。然而,如果第二个门首先触发,则没有可用的少数载流子。它会产生深耗尽层,即使 1 号门和 3 号门稍后触发,也会阻塞通道。
工程师们从生物大脑中可以学到的一点是,生物系统与计算机存在许多不同之处。例如,生物系统没有时钟,突触会对来自相邻神经元的脉冲模式做出反应,但在其他情况下基本上是不活跃的。生物系统学习和实时响应,与机器学习技术不同,后者在更新时会“冻结”系统。
栅极 FeFET“树突”。资料来源:IEDM
在人工神经元设计方面,最简单的模型是漏电积分和放电(LIF)模型,但它不适用于需要考虑事件序列的应用。生物大脑中的树突对序列做出反应,为了构建对序列敏感的电子设备,斯坦福大学的研究人员开发了一种3门铁电场效应晶体管(FeFET)“树突”设计。
探索不确定性量化
在IEDM上展示的其他结果寻找更适合脉冲相关信号的器件。例如,加州大学圣塔芭芭拉分校的研究人员使用RRAM器件基于LIF架构,通过器件温度来编码“资格跟踪”值,从而实现了更好的网络学习效果。
RRAM 电导值的概率分布
在AI领域的讨论中,Anantha Sethuraman强调了过度拟合的问题,而贝叶斯网络能够量化其结果的不确定性,识别出超出其训练范围的数据。然而,数字实现的贝叶斯网络效率极低,而RRAM则能够利用其随机性,为贝叶斯网络提供可预测和重复的权重分布。
未来,CIM设计面临着多方面的挑战,包括多功能性、可扩展性和准确性。下一篇文章将更详细地讨论这些问题,并介绍最新的研究成果。
首个存内计算开发者社区-CSDN存内计算
全球首个存内计算社区创立,涵盖最丰富的存内计算内容,以存内计算技术为核心,绝无仅有存内技术开源内容,囊括云/边/端侧商业化应用解析以及新技术趋势洞察等, 邀请业内大咖定期举办线下存内workshop,实战演练体验前沿架构;从理论到实践,做为最佳窗口,存内计算让你触手可及。