基于 SRAM 的存内计算助力实现节能 AI

简介: 基于 SRAM 的存内计算助力实现节能 AI

本期内容介绍有关功耗的相关问题。随着AI模型的复杂性和规模的不断增长,相应的功耗问题也逐渐凸显。在这个背景下,存内计算技术成为降低AI系统功耗的重要解决方案之一。本文将深入探讨基于SRAM(静态随机存取存储器)的存内计算,旨在详细解释存内计算如何助力降低AI功耗,并深入探讨SRAM是如何在这一技术中发挥关键作用的。

一.降低 AI 功耗的必要性

中国科协在第二十五届中国科协年会主论坛上,发布了2023重大科学问题、工程技术难题和产业技术问题。人工智能、新能源、高性能材料、生命科学等领域的重大问题受到关注。其中第一个问题就是如何实现低能耗人工智能。

第二十五届中国科协年会主论坛在合肥举行

人工智能(AI)加速器在神经网络等AI类型的任务中扮演着至关重要的角色。这些高效的并行计算设备能够提供处理大量数据所需的出色性能。随着AI在我们生活中的不断渗透,从智能扬声器等消费电子产品到自动化工厂等工业应用,我们迫切需要关注这些应用的能源效率。以设计AI加速器为例,我们有机会在早期设计阶段优化功耗。

实际上,鉴于其对环境的潜在影响,人工智能硬件功耗已成为一个需要特别关注的领域。OpenAI的数据显示,要训练出一流的AI模型,平均每3.4个月的时间就会使计算资源需求翻倍。马萨诸塞大学阿默斯特分校的研究人员估计,训练一个单一深度学习模型可能导致高达626,155磅的碳排放,相当于五辆汽车在其整个生命周期中的总排放量。而一旦将人工智能模型应用于实际场景,其能耗将进一步增加。AI硬件通常由上千片晶片(处理元件)组成,这一设计需要十亿多个逻辑门,因此极其能耗庞大。通过降低功耗,我们可以获得多方面的好处,包括成本降低、电池续航时间延长,同时将对环境的不良影响降至最低。[1]

近日,根据德国施耐德电气最新发布报告显示——2023年AI负载功耗需求为4.3G瓦——大约相当于2021年丹麦的全年平均功耗。据施耐德电气称,到 2023 年,所有数据中心的总功耗预计将达到 54 GW。在这些人工智能工作负载中,训练和推理之间的分配特点是 20% 的功耗用于训练目的,80% 分配给推理任务。这意味着人工智能工作负载将占今年数据中心总功耗的约8%。

施耐德电气报告

二.降低ai功耗的思路与国内外研究与成果

在这一背景下,低功耗人工智能成为追求可持续发展和环保的重要方向。低功耗人工智能不仅有助于解决节能环保的问题,更能在移动设备、物联网和边缘计算等领域发挥关键作用。其意义不仅在于降低能源开支和维护成本,同时也能推动更广泛的人工智能应用,使得这一技术更贴近实际需求。

AI任务及性能要求

因此,探索并强调低功耗人工智能的重要性,成为当前科技领域中的一项迫切任务。未来低功耗人工智能的一些主要趋势包括——

2.1.算法优化

二值神经网络 (BNN) 使用位运算代替标准算术运算,大大降低了存储器大小和访问要求。通过显著提高运行时效率和降低能耗。BNN可以显著减少存储量和访问量,并通过逐位计算取代大多数算术运算,从而大大提高能效;二值处理单元用于CNN时,可节省60%的硬件复杂性。有人将二值网络在ImageNet数据集上进行了测试,与全精度AlexNet相比,分类精度仅降低了2.9%,而且由于其功耗小,计算时间短,使得通过专门硬件加速DNN的训练过程成为可能。 [2]

BNN示意图

2.2.硬件优化

开发专为低功耗人工智能设计的新硬件架构。这些架构通常可以非常有效地执行人工智能计算。在传统冯·诺伊曼体系结构中,数据需要从处理单元外的存储器提取,处理完之后再写回存储器,速度慢、耗能高,这是低功耗和高性能之间的矛盾关键点,而存算一体芯片是新型的计算架构,可以使存储器同时拥有计算和存储功能。举例来说,以前需要3~4个模块搭载在一起进行存储和计算,数据需要从处理单元外的存储器提取,而有了存算一体技术,一个芯片足以打通存算环节。由此,可以避免数据反复搬运,能大幅提升能效,降低设计难度。

知存科技WTM2101 端侧高算力AI芯片

三.基于 SRAM 的存内计算

2016年,Jeloka等人提出了基于SRAM的存内逻辑计算。随后,大量研究基于此原理进行了更深入的研究.同时,根据SRAM的存内逻辑运算原理,SRAM又被用于神经网络的硬件加速.[3]

SRAM的写入过程

SRAM是比DRAM更为昂贵,但更为快速、非常低功耗(特别是在空闲状态)。因此SRAM首选用于带宽要求高,或者功耗要求低,或者二者兼而有之。SRAM比起DRAM更为容易控制,也更是随机访问。由于复杂的内部结构,SRAM比DRAM的占用面积更大,因而不适合用于更高储存密度低成本的应用,如PC内存。[4]

现代高速缓存一般由SRAM实现

基于SRAM的存内计算在降低AI功耗方面发挥着重要作用。SRAM的静态特性和较快的访问速度有助于降低内存访问功耗,提高整体计算效率。其低功耗状态切换的灵活性也使得系统在空闲或轻负载时能够更有效地管理功耗,为构建高效能且能源节约的AI应用提供了基础。

参考文献

  1. 王梓霖. 面向低功耗嵌入式系统的存内计算电路设计[D].电子科技大学,2023.
  2. 李燕飞. 二值神经网络设计中若干关键技术的研究[D].浙江大学,2023.
  3. 郭昕婕,王光燿,王绍迪.存内计算芯片研究进展及应用[J].电子与信息学报,2023.
  4. Bhaskar, Akshay. “Design and analysis of low power SRAM cells.” 2017 Innovations in Power and Advanced Computing Technologies (i-PACT) (2017): 1-5.
相关文章
|
3天前
|
机器学习/深度学习 人工智能 分布式计算
探索操作系统的未来:量子计算与AI的融合
【7月更文挑战第4天】在数字化时代,操作系统作为连接用户与硬件的桥梁,其发展直接影响着计算机科学的进步。随着量子计算和人工智能技术的兴起,传统操作系统面临着前所未有的挑战和机遇。本文将探讨量子计算与AI技术如何推动操作系统的进化,以及这一进程对软件架构、安全性和性能优化等方面的影响。通过分析当前技术趋势和未来展望,文章旨在为读者提供一个关于操作系统未来发展的全面视角。
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
AI计算的未来趋势是什么?
【5月更文挑战第19天】AI计算的未来趋势是什么?
37 1
|
6天前
|
人工智能 运维 Serverless
基于 Serverless 计算快速构建AI应用开发陪跑班开课啦!
云端问道第8期开课啦!参与直播间动手实操即可获得保温杯,参与直播间活动可抽奖无线充电器!!您将在课程中学习到基于Serverless技术函数计算FC实现基于Serverless 构建企业级AI应用的解决方案,降低 GPU的使用成本、减少企业或个人创业的试错成本、简化开发运维,让人人都可以拥有自己“专属”的AIGC环境成为可能!阿里云技术专家将手把手带您实操,还将针对实操中的问题进行一对一答疑!机会难得,快来参加吧!
107 5
|
15天前
|
机器学习/深度学习 人工智能 监控
探索操作系统的未来:量子计算与AI的融合
【6月更文挑战第21天】随着科技的不断进步,传统操作系统正面临着前所未有的挑战与机遇。本文将探讨未来操作系统的发展趋势,重点分析量子计算和人工智能技术如何推动操作系统的革命性变革。从量子操作系统的原理到AI在系统优化中的应用,文章将揭示这些前沿技术如何共同塑造更加智能、高效的计算机环境,为读者呈现一个充满可能性的未来计算图景。
|
26天前
|
人工智能 网络架构 异构计算
以LLaMa 65B模型训练实例来计算AI/HPC算力光模块数量
本文介绍了如何根据LLaMa 65B模型训练需求计算所需的AI/HPC光模块数量。在案例中,使用2048个A100 GPU,单GPU算力为156 TFLOPS。模型算力需求为546*10^21 FLOPS,预计训练时间为20天。采用两层Fat-Tree网络架构,需1024个400G网卡,48台交换机,若全用400G光模块则需4096个,交换机间2048个,网卡间1024个。大成鹏通信提供200G至800G的解决方案,并提供咨询与支持服务。
以LLaMa 65B模型训练实例来计算AI/HPC算力光模块数量
|
2月前
|
机器学习/深度学习 人工智能 算法
AI计算
【5月更文挑战第19天】AI计算
45 2
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI计算在哪些方面可以提高教育模式的效率?
【5月更文挑战第19天】AI计算可以在多个方面提高教育模式的效率,具体包括: 智能教育环境:通过机器学习和自然语言处理技术,可以创建个性化的学习环境,根据学生的学习习惯和进度调整教学内容和难度,从而提高学 AI计算在哪些方面可以提高教育模式的效率?
106 1
|
机器学习/深度学习 人工智能 算法
阿里云异构计算产品家族亮相 覆盖全场景AI和高性能计算需求
本文讲的是阿里云异构计算产品家族亮相 覆盖全场景AI和高性能计算需求【IT168 云计算】计算正推动着人工智能产业更大规模的爆发。
2067 2
|
机器学习/深度学习 人工智能 算法
阿里云异构计算产品家族亮相 覆盖全场景AI和高性能计算需求
本文讲的是阿里云异构计算产品家族亮相 覆盖全场景AI和高性能计算需求,计算正推动着人工智能产业更大规模的爆发。9月12日,阿里云宣布推出全新一代异构加速平台,为人工智能产业提供多场景化的全球加速能力。这是阿里云异构计算家族首次亮相,涵盖GPU、FPGA在内等6款异构实例,可满足从图形渲染到高性能计算及人工智能等复杂应用的计算需求。
2200 0