大模型终端部署新趋势:硬件直接支持混合矩阵乘法

简介: 【9月更文挑战第13天】Jianyu Wei等人提出的T-MAC(Table Lookup for Low-Bit LLM Deployment on Edge)通过查表方法提升低位宽大语言模型在CPU上的推理效率,解决了现有系统对混合精度矩阵乘法支持不足的问题。T-MAC无需解量化即可直接支持mpGEMM,消除了乘法运算并减少加法运算,提高了计算效率和可扩展性。实验显示,T-MAC在低位宽的Llama和BitNet模型上表现优异,吞吐量提升4倍,能耗降低70%,在资源受限设备如Raspberry Pi 5上也能达到超过成人平均阅读速度的11 tokens/s。

近年来,随着大模型的广泛应用,如何在资源受限的边缘设备上高效部署这些模型成为了研究者们关注的焦点。为了解决这个问题,来自Jianyu Wei等人的最新研究成果——T-MAC,为我们带来了新的思路和解决方案。

T-MAC(Table Lookup for Low-Bit LLM Deployment on Edge)是一种基于查表(LUT)的方法,旨在提高低位宽大语言模型(LLM)在CPU上的推理效率。该方法的提出,源于研究人员对现有系统的观察和思考。

在传统的大模型部署方案中,权重量化是减少模型内存占用的关键技术。然而,对于低位宽的模型来说,在推理过程中需要进行混合精度矩阵乘法(mpGEMM),即将低精度权重与高精度激活值相乘。由于现有系统缺乏对mpGEMM的原生支持,通常需要先将权重进行解量化,再进行高精度计算。这种间接的方式会导致显著的推理开销。

为了解决这个问题,T-MAC提出了一种创新的解决方案。它通过将传统的数据类型中心乘法转化为位级查表,直接支持了mpGEMM,而无需解量化。同时,T-MAC还消除了乘法运算,并减少了所需的加法运算。这种基于查表的方法使得T-MAC能够线性地扩展到权重的位宽,从而提高了计算的效率和可扩展性。

研究人员在低位宽的Llama和BitNet模型上对T-MAC进行了评估。结果显示,与现有的llama.cpp实现相比,T-MAC在吞吐量上提高了4倍,在能耗上减少了70%。具体来说,对于BitNet-b1.58-3B模型,T-MAC在M2-Ultra上使用单个核心实现了30 tokens/s的生成吞吐量,使用8个核心实现了71 tokens/s的吞吐量;而在资源受限的设备如Raspberry Pi 5上,T-MAC也实现了11 tokens/s的吞吐量,这已经超过了成年人的平均阅读速度。

这些结果表明,T-MAC为在资源受限的边缘设备上部署低位宽大模型提供了一种高效的解决方案。它不仅提高了计算的吞吐量和能效,还使得大模型的部署更加接近实际应用场景。

然而,T-MAC也存在一些潜在的挑战和限制。首先,由于T-MAC是基于查表的方法,它可能需要更多的内存来存储查表数据,这可能会对资源受限的设备造成一定的压力。其次,T-MAC的实现可能需要对现有的硬件和软件进行一定的修改和适配,这可能会增加部署的复杂性和成本。

T-MAC 论文链接:https://arxiv.org/abs/2407.00088

目录
相关文章
|
3月前
|
缓存 人工智能 算法
深度揭秘复杂异构硬件推理优化
本文介绍了大语言模型在部署推理层面的性能优化工作,涵盖高性能算子、量化压缩、高效运行时及分布式调度四个方面。面对参数和上下文规模增长带来的显存、缓存与计算开销挑战,文中详细探讨了如何通过优化算子性能、低精度量化压缩、异步运行时框架设计以及多层次分布式架构来提升大模型推理效率。此外,还展示了BladeLLM引擎框架的实际应用效果,证明了这些技术在高并发场景下的显著性能提升。
|
2月前
|
人工智能 物联网 Python
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理
VMix 是一款创新的即插即用美学适配器,通过解耦文本提示和交叉注意力混合控制,显著提升图像生成的美学质量,支持多源输入和高质量视频处理。
94 11
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理
|
存储 机器学习/深度学习 人工智能
ISSCC 2022 | 兼顾能效、精度和灵活性,可重构数字存算一体架构打开高算力AI芯片新范式
ISSCC 2022 | 兼顾能效、精度和灵活性,可重构数字存算一体架构打开高算力AI芯片新范式
855 0
|
存储 大数据 云计算
如何利用软硬深度结合优化云硬件
本文PPT来自阿里巴巴基础架构事业群架构师希有于10月16日在2016年杭州云栖大会上发表的《软硬深度结合的云硬件优化实践》。
2926 0
|
机器学习/深度学习 缓存 分布式计算
|
机器学习/深度学习 Web App开发 测试技术
伯克利与微软联合发布:任意网络结构下的最优GPU通信库Blink
在分布式机器学习中,随着 GPU 的算力不断提升,GPU 之间的通信逐渐成为模型训练的瓶颈。为解决该问题,由微软研究院 (Microsoft Research),加州大学伯克利分校 (UC Berkeley),以及威斯康星大学麦迪逊分校 (University of Wisconsin-Madison) 的研究团队共同推出,在任意网络结构下,实现最优解的 GPU 间通信库 Blink。
421 0
伯克利与微软联合发布:任意网络结构下的最优GPU通信库Blink
|
缓存 监控 数据可视化
如何用 GPU硬件层加速优化Android系统的游戏流畅度
作为一款VR实时操作游戏App,我们需要根据重力感应系统,实时监控手机的角度,并渲染出相应位置的VR图像,因此在不同 Android 设备之间,由于使用的芯片组和不同架构的GPU,游戏性能会因此受到影响。举例来说:游戏在 Galaxy S20+ 上可能以 60fps 的速度渲染,但它在HUAWEI P50 Pro上的表现可能与前者大相径庭。
如何用 GPU硬件层加速优化Android系统的游戏流畅度
|
机器学习/深度学习 存储
智能手机跑大规模神经网络的主要策略
这些方法可以让深度学习跑在你的手机上!
2550 0