大模型终端部署新趋势:硬件直接支持混合矩阵乘法

简介: 【9月更文挑战第13天】Jianyu Wei等人提出的T-MAC(Table Lookup for Low-Bit LLM Deployment on Edge)通过查表方法提升低位宽大语言模型在CPU上的推理效率,解决了现有系统对混合精度矩阵乘法支持不足的问题。T-MAC无需解量化即可直接支持mpGEMM,消除了乘法运算并减少加法运算,提高了计算效率和可扩展性。实验显示,T-MAC在低位宽的Llama和BitNet模型上表现优异,吞吐量提升4倍,能耗降低70%,在资源受限设备如Raspberry Pi 5上也能达到超过成人平均阅读速度的11 tokens/s。

近年来,随着大模型的广泛应用,如何在资源受限的边缘设备上高效部署这些模型成为了研究者们关注的焦点。为了解决这个问题,来自Jianyu Wei等人的最新研究成果——T-MAC,为我们带来了新的思路和解决方案。

T-MAC(Table Lookup for Low-Bit LLM Deployment on Edge)是一种基于查表(LUT)的方法,旨在提高低位宽大语言模型(LLM)在CPU上的推理效率。该方法的提出,源于研究人员对现有系统的观察和思考。

在传统的大模型部署方案中,权重量化是减少模型内存占用的关键技术。然而,对于低位宽的模型来说,在推理过程中需要进行混合精度矩阵乘法(mpGEMM),即将低精度权重与高精度激活值相乘。由于现有系统缺乏对mpGEMM的原生支持,通常需要先将权重进行解量化,再进行高精度计算。这种间接的方式会导致显著的推理开销。

为了解决这个问题,T-MAC提出了一种创新的解决方案。它通过将传统的数据类型中心乘法转化为位级查表,直接支持了mpGEMM,而无需解量化。同时,T-MAC还消除了乘法运算,并减少了所需的加法运算。这种基于查表的方法使得T-MAC能够线性地扩展到权重的位宽,从而提高了计算的效率和可扩展性。

研究人员在低位宽的Llama和BitNet模型上对T-MAC进行了评估。结果显示,与现有的llama.cpp实现相比,T-MAC在吞吐量上提高了4倍,在能耗上减少了70%。具体来说,对于BitNet-b1.58-3B模型,T-MAC在M2-Ultra上使用单个核心实现了30 tokens/s的生成吞吐量,使用8个核心实现了71 tokens/s的吞吐量;而在资源受限的设备如Raspberry Pi 5上,T-MAC也实现了11 tokens/s的吞吐量,这已经超过了成年人的平均阅读速度。

这些结果表明,T-MAC为在资源受限的边缘设备上部署低位宽大模型提供了一种高效的解决方案。它不仅提高了计算的吞吐量和能效,还使得大模型的部署更加接近实际应用场景。

然而,T-MAC也存在一些潜在的挑战和限制。首先,由于T-MAC是基于查表的方法,它可能需要更多的内存来存储查表数据,这可能会对资源受限的设备造成一定的压力。其次,T-MAC的实现可能需要对现有的硬件和软件进行一定的修改和适配,这可能会增加部署的复杂性和成本。

T-MAC 论文链接:https://arxiv.org/abs/2407.00088

目录
相关文章
|
2月前
|
缓存 人工智能 算法
深度揭秘复杂异构硬件推理优化
本文介绍了大语言模型在部署推理层面的性能优化工作,涵盖高性能算子、量化压缩、高效运行时及分布式调度四个方面。面对参数和上下文规模增长带来的显存、缓存与计算开销挑战,文中详细探讨了如何通过优化算子性能、低精度量化压缩、异步运行时框架设计以及多层次分布式架构来提升大模型推理效率。此外,还展示了BladeLLM引擎框架的实际应用效果,证明了这些技术在高并发场景下的显著性能提升。
|
4月前
|
机器学习/深度学习 人工智能 算法
神经形态计算:模拟大脑的计算方式
【10月更文挑战第11天】神经形态计算作为一种新兴的计算范式,正以其独特的优势和广阔的应用前景吸引着越来越多的关注。通过模拟大脑的计算方式,神经形态计算不仅能够提高计算速度和能效,还能在处理复杂任务时展现出更高的智能水平。我们有理由相信,在未来的发展中,神经形态计算将为我们带来更多的惊喜和突破,引领我们进入一个全新的计算时代。
|
1月前
|
人工智能 物联网 Python
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理
VMix 是一款创新的即插即用美学适配器,通过解耦文本提示和交叉注意力混合控制,显著提升图像生成的美学质量,支持多源输入和高质量视频处理。
77 11
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理
|
6月前
|
边缘计算 Kubernetes Cloud Native
边缘计算问题之中等规模标准集群的配置与大规模的差异如何解决
边缘计算问题之中等规模标准集群的配置与大规模的差异如何解决
48 1
|
6月前
|
人工智能 vr&ar
嵌入式AI控制单元整体设计思路
【8月更文挑战第3天】嵌入式AI控制单元整体设计思路。
75 11
|
机器学习/深度学习 人工智能 自然语言处理
一种新的神经形态计算架构,可以更有效地运行深度神经网络
一种新的神经形态计算架构,可以更有效地运行深度神经网络
166 0
|
存储 机器学习/深度学习 人工智能
ISSCC 2022 | 兼顾能效、精度和灵活性,可重构数字存算一体架构打开高算力AI芯片新范式
ISSCC 2022 | 兼顾能效、精度和灵活性,可重构数字存算一体架构打开高算力AI芯片新范式
847 0
|
存储 大数据 云计算
如何利用软硬深度结合优化云硬件
本文PPT来自阿里巴巴基础架构事业群架构师希有于10月16日在2016年杭州云栖大会上发表的《软硬深度结合的云硬件优化实践》。
2924 0
|
异构计算 算法 双11
基础设施助力双11(四):图片编码FPGA硬件优化
从我们的性能评测中可以看出基于FPGA编解码方案在性能上优于传统CPU方案,未来可以考虑更多采用FPGA方案提供服务,释放更多CPU资源用于其他服务。
1127 0
|
机器学习/深度学习 存储
智能手机跑大规模神经网络的主要策略
这些方法可以让深度学习跑在你的手机上!
2544 0