大模型终端部署新趋势：硬件直接支持混合矩阵乘法-阿里云开发者社区

大模型终端部署新趋势：硬件直接支持混合矩阵乘法

2024-09-13 166

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【9月更文挑战第13天】Jianyu Wei等人提出的T-MAC（Table Lookup for Low-Bit LLM Deployment on Edge）通过查表方法提升低位宽大语言模型在CPU上的推理效率，解决了现有系统对混合精度矩阵乘法支持不足的问题。T-MAC无需解量化即可直接支持mpGEMM，消除了乘法运算并减少加法运算，提高了计算效率和可扩展性。实验显示，T-MAC在低位宽的Llama和BitNet模型上表现优异，吞吐量提升4倍，能耗降低70%，在资源受限设备如Raspberry Pi 5上也能达到超过成人平均阅读速度的11 tokens/s。

近年来，随着大模型的广泛应用，如何在资源受限的边缘设备上高效部署这些模型成为了研究者们关注的焦点。为了解决这个问题，来自Jianyu Wei等人的最新研究成果——T-MAC，为我们带来了新的思路和解决方案。

T-MAC（Table Lookup for Low-Bit LLM Deployment on Edge）是一种基于查表（LUT）的方法，旨在提高低位宽大语言模型（LLM）在CPU上的推理效率。该方法的提出，源于研究人员对现有系统的观察和思考。

在传统的大模型部署方案中，权重量化是减少模型内存占用的关键技术。然而，对于低位宽的模型来说，在推理过程中需要进行混合精度矩阵乘法（mpGEMM），即将低精度权重与高精度激活值相乘。由于现有系统缺乏对mpGEMM的原生支持，通常需要先将权重进行解量化，再进行高精度计算。这种间接的方式会导致显著的推理开销。

为了解决这个问题，T-MAC提出了一种创新的解决方案。它通过将传统的数据类型中心乘法转化为位级查表，直接支持了mpGEMM，而无需解量化。同时，T-MAC还消除了乘法运算，并减少了所需的加法运算。这种基于查表的方法使得T-MAC能够线性地扩展到权重的位宽，从而提高了计算的效率和可扩展性。

研究人员在低位宽的Llama和BitNet模型上对T-MAC进行了评估。结果显示，与现有的llama.cpp实现相比，T-MAC在吞吐量上提高了4倍，在能耗上减少了70%。具体来说，对于BitNet-b1.58-3B模型，T-MAC在M2-Ultra上使用单个核心实现了30 tokens/s的生成吞吐量，使用8个核心实现了71 tokens/s的吞吐量；而在资源受限的设备如Raspberry Pi 5上，T-MAC也实现了11 tokens/s的吞吐量，这已经超过了成年人的平均阅读速度。

这些结果表明，T-MAC为在资源受限的边缘设备上部署低位宽大模型提供了一种高效的解决方案。它不仅提高了计算的吞吐量和能效，还使得大模型的部署更加接近实际应用场景。

然而，T-MAC也存在一些潜在的挑战和限制。首先，由于T-MAC是基于查表的方法，它可能需要更多的内存来存储查表数据，这可能会对资源受限的设备造成一定的压力。其次，T-MAC的实现可能需要对现有的硬件和软件进行一定的修改和适配，这可能会增加部署的复杂性和成本。

T-MAC 论文链接：https://arxiv.org/abs/2407.00088

大模型终端部署新趋势：硬件直接支持混合矩阵乘法

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

大模型终端部署新趋势：硬件直接支持混合矩阵乘法

热门文章

最新文章

相关课程

相关电子书

相关实验场景