大模型终端部署新趋势:硬件直接支持混合矩阵乘法

简介: 【9月更文挑战第13天】Jianyu Wei等人提出的T-MAC(Table Lookup for Low-Bit LLM Deployment on Edge)通过查表方法提升低位宽大语言模型在CPU上的推理效率,解决了现有系统对混合精度矩阵乘法支持不足的问题。T-MAC无需解量化即可直接支持mpGEMM,消除了乘法运算并减少加法运算,提高了计算效率和可扩展性。实验显示,T-MAC在低位宽的Llama和BitNet模型上表现优异,吞吐量提升4倍,能耗降低70%,在资源受限设备如Raspberry Pi 5上也能达到超过成人平均阅读速度的11 tokens/s。

近年来,随着大模型的广泛应用,如何在资源受限的边缘设备上高效部署这些模型成为了研究者们关注的焦点。为了解决这个问题,来自Jianyu Wei等人的最新研究成果——T-MAC,为我们带来了新的思路和解决方案。

T-MAC(Table Lookup for Low-Bit LLM Deployment on Edge)是一种基于查表(LUT)的方法,旨在提高低位宽大语言模型(LLM)在CPU上的推理效率。该方法的提出,源于研究人员对现有系统的观察和思考。

在传统的大模型部署方案中,权重量化是减少模型内存占用的关键技术。然而,对于低位宽的模型来说,在推理过程中需要进行混合精度矩阵乘法(mpGEMM),即将低精度权重与高精度激活值相乘。由于现有系统缺乏对mpGEMM的原生支持,通常需要先将权重进行解量化,再进行高精度计算。这种间接的方式会导致显著的推理开销。

为了解决这个问题,T-MAC提出了一种创新的解决方案。它通过将传统的数据类型中心乘法转化为位级查表,直接支持了mpGEMM,而无需解量化。同时,T-MAC还消除了乘法运算,并减少了所需的加法运算。这种基于查表的方法使得T-MAC能够线性地扩展到权重的位宽,从而提高了计算的效率和可扩展性。

研究人员在低位宽的Llama和BitNet模型上对T-MAC进行了评估。结果显示,与现有的llama.cpp实现相比,T-MAC在吞吐量上提高了4倍,在能耗上减少了70%。具体来说,对于BitNet-b1.58-3B模型,T-MAC在M2-Ultra上使用单个核心实现了30 tokens/s的生成吞吐量,使用8个核心实现了71 tokens/s的吞吐量;而在资源受限的设备如Raspberry Pi 5上,T-MAC也实现了11 tokens/s的吞吐量,这已经超过了成年人的平均阅读速度。

这些结果表明,T-MAC为在资源受限的边缘设备上部署低位宽大模型提供了一种高效的解决方案。它不仅提高了计算的吞吐量和能效,还使得大模型的部署更加接近实际应用场景。

然而,T-MAC也存在一些潜在的挑战和限制。首先,由于T-MAC是基于查表的方法,它可能需要更多的内存来存储查表数据,这可能会对资源受限的设备造成一定的压力。其次,T-MAC的实现可能需要对现有的硬件和软件进行一定的修改和适配,这可能会增加部署的复杂性和成本。

T-MAC 论文链接:https://arxiv.org/abs/2407.00088

目录
相关文章
|
21天前
|
机器学习/深度学习 边缘计算 PyTorch
PyTorch 与边缘计算:将深度学习模型部署到嵌入式设备
【8月更文第29天】随着物联网技术的发展,越来越多的数据处理任务开始在边缘设备上执行,以减少网络延迟、降低带宽成本并提高隐私保护水平。PyTorch 是一个广泛使用的深度学习框架,它不仅支持高效的模型训练,还提供了多种工具帮助开发者将模型部署到边缘设备。本文将探讨如何将PyTorch模型高效地部署到嵌入式设备上,并通过一个具体的示例来展示整个流程。
82 1
|
1月前
|
Web App开发 人工智能 物联网
操作系统的演变:从单一到多元,再到云端
在数字时代的浪潮中,操作系统(OS)作为计算机系统的核心,经历了从简单到复杂,再到云化的演变。本文将探讨操作系统的发展历程,包括早期的批处理系统、多道程序设计、分时系统的出现,以及现代操作系统的多样化和云端化趋势。我们将看到,随着技术的不断进步,操作系统不仅在性能上得到了提升,其设计理念和应用场景也发生了根本性的变化。
|
1月前
|
人工智能 vr&ar
嵌入式AI控制单元整体设计思路
【8月更文挑战第3天】嵌入式AI控制单元整体设计思路。
44 11
|
存储 开发框架 前端开发
「技术架构」TOGAF建模:网络计算硬件图
「技术架构」TOGAF建模:网络计算硬件图
|
机器学习/深度学习 自动驾驶 安全
YOffleNet | YOLO V4 基于嵌入式设备的轻量化改进设计
YOffleNet | YOLO V4 基于嵌入式设备的轻量化改进设计
284 0
|
存储 机器学习/深度学习 人工智能
ISSCC 2022 | 兼顾能效、精度和灵活性,可重构数字存算一体架构打开高算力AI芯片新范式
ISSCC 2022 | 兼顾能效、精度和灵活性,可重构数字存算一体架构打开高算力AI芯片新范式
686 0
|
机器学习/深度学习 计算机视觉
轻量化模型系列--GhostNet:廉价操作生成更多特征
由于内存和计算资源有限,在嵌入式设备上部署卷积神经网络 (CNN) 很困难。特征图中的冗余是那些成功的 CNN 的一个重要特征,但在神经架构设计中很少被研究
轻量化模型系列--GhostNet:廉价操作生成更多特征
|
机器学习/深度学习 SQL 人工智能
ARM放大招发布Trillium项目:包含神经网络软件库和两种AI处理器
90% 的 AI 设备都是用 Arm 的架构设计的,现在 Arm 在人工智能领域厚积薄发,发布了 Trillium 项目,包括一款为移动设备而设计的机器学习处理器、一款目标检测处理器和一个神经网络软件库。
230 0
ARM放大招发布Trillium项目:包含神经网络软件库和两种AI处理器
|
机器学习/深度学习 传感器 缓存
iNeuOS 物联网云操作系统2.0发布,集成设备容器、视图建模、机器学习三大模块
目 录 概述... 2 使命及目标... 3 系统框架... 4 设备容器(iNeuKernel)... 4 第三方数据导入接口... 9 视图建模(iNeuView)... 10 机器学习(iNeuAI)... 11 征集需求... 13 概述 iNeuOS物联网云操作系统(i:代表信息和工业,Neu:代表神经元和细胞,OS:代表操作系统),这是我们起名字时候的想法。
2561 0