大模型终端部署新趋势:硬件直接支持混合矩阵乘法

简介: 【9月更文挑战第13天】Jianyu Wei等人提出的T-MAC(Table Lookup for Low-Bit LLM Deployment on Edge)通过查表方法提升低位宽大语言模型在CPU上的推理效率,解决了现有系统对混合精度矩阵乘法支持不足的问题。T-MAC无需解量化即可直接支持mpGEMM,消除了乘法运算并减少加法运算,提高了计算效率和可扩展性。实验显示,T-MAC在低位宽的Llama和BitNet模型上表现优异,吞吐量提升4倍,能耗降低70%,在资源受限设备如Raspberry Pi 5上也能达到超过成人平均阅读速度的11 tokens/s。

近年来,随着大模型的广泛应用,如何在资源受限的边缘设备上高效部署这些模型成为了研究者们关注的焦点。为了解决这个问题,来自Jianyu Wei等人的最新研究成果——T-MAC,为我们带来了新的思路和解决方案。

T-MAC(Table Lookup for Low-Bit LLM Deployment on Edge)是一种基于查表(LUT)的方法,旨在提高低位宽大语言模型(LLM)在CPU上的推理效率。该方法的提出,源于研究人员对现有系统的观察和思考。

在传统的大模型部署方案中,权重量化是减少模型内存占用的关键技术。然而,对于低位宽的模型来说,在推理过程中需要进行混合精度矩阵乘法(mpGEMM),即将低精度权重与高精度激活值相乘。由于现有系统缺乏对mpGEMM的原生支持,通常需要先将权重进行解量化,再进行高精度计算。这种间接的方式会导致显著的推理开销。

为了解决这个问题,T-MAC提出了一种创新的解决方案。它通过将传统的数据类型中心乘法转化为位级查表,直接支持了mpGEMM,而无需解量化。同时,T-MAC还消除了乘法运算,并减少了所需的加法运算。这种基于查表的方法使得T-MAC能够线性地扩展到权重的位宽,从而提高了计算的效率和可扩展性。

研究人员在低位宽的Llama和BitNet模型上对T-MAC进行了评估。结果显示,与现有的llama.cpp实现相比,T-MAC在吞吐量上提高了4倍,在能耗上减少了70%。具体来说,对于BitNet-b1.58-3B模型,T-MAC在M2-Ultra上使用单个核心实现了30 tokens/s的生成吞吐量,使用8个核心实现了71 tokens/s的吞吐量;而在资源受限的设备如Raspberry Pi 5上,T-MAC也实现了11 tokens/s的吞吐量,这已经超过了成年人的平均阅读速度。

这些结果表明,T-MAC为在资源受限的边缘设备上部署低位宽大模型提供了一种高效的解决方案。它不仅提高了计算的吞吐量和能效,还使得大模型的部署更加接近实际应用场景。

然而,T-MAC也存在一些潜在的挑战和限制。首先,由于T-MAC是基于查表的方法,它可能需要更多的内存来存储查表数据,这可能会对资源受限的设备造成一定的压力。其次,T-MAC的实现可能需要对现有的硬件和软件进行一定的修改和适配,这可能会增加部署的复杂性和成本。

T-MAC 论文链接:https://arxiv.org/abs/2407.00088

相关文章
深度揭秘复杂异构硬件推理优化
本文介绍了大语言模型在部署推理层面的性能优化工作,涵盖高性能算子、量化压缩、高效运行时及分布式调度四个方面。面对参数和上下文规模增长带来的显存、缓存与计算开销挑战,文中详细探讨了如何通过优化算子性能、低精度量化压缩、异步运行时框架设计以及多层次分布式架构来提升大模型推理效率。此外,还展示了BladeLLM引擎框架的实际应用效果,证明了这些技术在高并发场景下的显著性能提升。
1FPGA模型计算机整体方案设计【FPGA模型机课程设计】
1FPGA模型计算机整体方案设计【FPGA模型机课程设计】
93 0
如何利用软硬深度结合优化云硬件
本文PPT来自阿里巴巴基础架构事业群架构师希有于10月16日在2016年杭州云栖大会上发表的《软硬深度结合的云硬件优化实践》。
2929 0
如何用 GPU硬件层加速优化Android系统的游戏流畅度
作为一款VR实时操作游戏App,我们需要根据重力感应系统,实时监控手机的角度,并渲染出相应位置的VR图像,因此在不同 Android 设备之间,由于使用的芯片组和不同架构的GPU,游戏性能会因此受到影响。举例来说:游戏在 Galaxy S20+ 上可能以 60fps 的速度渲染,但它在HUAWEI P50 Pro上的表现可能与前者大相径庭。
如何用 GPU硬件层加速优化Android系统的游戏流畅度
iNeuOS工业互联平台,实现动态图元、计算平台、远程控制、数据转发等,和大厂相比如何
此次升级主要开发动态图元、计算平台、远程设备控制、数据转发等功能单元,升级后完成了iNeuOS工业互联网操作系统基础建设的整体部分。更适用于工厂及企业的高级信息化、系统集成、5G云端建设及控制等应用场景。
637 0
iNeuOS工业互联平台,实现动态图元、计算平台、远程控制、数据转发等,和大厂相比如何
NeurlPS2019 “高效能的深度神经网络处理:从算法到硬件架构”学习笔记和导读
前言 NeurlPS 2019 大会刚结束,看了看相关的内容,绝大部分是各种前沿理论的文章。这些和我工作的内容还有比较长的距离:不论是知识领域空间上的距离,还是相关理论转为工业界实践的时间上的距离。但有两篇还是吸引了我的注意。一篇是用于普及的教程:“Efficient Processing of Deep Neural Networks: from Algorithms to Har