CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源

简介: 【9月更文挑战第7天】微软研究院提出了一种名为T-MAC的创新方法,旨在解决大型语言模型在资源受限的边缘设备上高效部署的问题。T-MAC通过查表法在CPU上实现低比特LLM的高效推理,支持混合精度矩阵乘法,无需解量化。其通过位级查表实现统一且可扩展的解决方案,优化数据布局和重用率,显著提升了单线程和多线程下的mpGEMV及mpGEMM性能,并在端到端推理吞吐量和能效方面表现出色。然而,表量化和快速聚合技术可能引入近似和数值误差,影响模型准确性。论文详见:[链接](https://www.arxiv.org/pdf/2407.00088)。

随着大型语言模型(LLM)在智能设备上的广泛应用,如何在资源受限的边缘设备上高效部署LLM成为了一个关键问题。最近,微软研究院提出了一种名为T-MAC的创新方法,通过查表法(LUT)在CPU上实现低比特LLM(即权重量化LLM)的高效推理。T-MAC直接支持混合精度矩阵乘法(mpGEMM),无需解量化,同时消除了所需的乘法和加法。

T-MAC通过将传统的数据类型为中心的乘法转换为位级查表,实现了统一且可扩展的mpGEMM解决方案。具体而言,T-MAC将mpGEMM分解为一系列(等于权重比特宽度)的mpGEMM,其中激活和一位矩阵之间进行乘法,然后累加部分结果。这种方法可以支持任何激活和权重的比特宽度组合。

为了实现高效的位级查表计算,T-MAC提出了一种LUT中心数据布局,以确保LUT驻留在高速片上内存中,并通过轴重排和数据分块来提高数据重用率。此外,T-MAC还提出了表量化和镜像合并等技术,以减少表的大小和限制查表操作的数量。

T-MAC在性能方面表现出色。在单线程mpGEMV(矩阵向量乘法)和多线程mpGEMV的基准测试中,T-MAC的性能显著优于现有的解量化基线。例如,在单线程mpGEMV中,T-MAC在1、2、3和4比特情况下分别实现了最高11.2倍、5.8倍、4.7倍和3.1倍的速度提升。

在多线程mpGEMM的基准测试中,T-MAC的性能主要受限于内存带宽,但仍然实现了显著的速度提升。例如,在2比特情况下,T-MAC在所有四个设备上分别实现了4.0倍、4.0倍、5.31倍和2.5倍的速度提升。

此外,T-MAC还实现了显著的端到端推理吞吐量提升。通过将T-MAC内核集成到llama.cpp中,T-MAC在单线程和多线程情况下都实现了显著的速度提升。例如,在单线程情况下,T-MAC在Raspberry Pi 5上实现了2.8倍、6.7倍和5.8倍的速度提升。

除了计算效率外,T-MAC还具有出色的能效优势。通过在M2 Ultra设备上进行实验,T-MAC在三个模型上分别实现了10.3%、10.3%和17.3%的功率消耗减少,以及20.6%、61.2%和51.3%的总能耗减少。

尽管T-MAC在性能和能效方面表现出色,但也存在一些局限性。首先,T-MAC的表量化技术可能会引入一些算法上的近似误差,这可能会对模型的准确性产生影响。其次,T-MAC的快速聚合技术可能会引入一些数值误差,这可能会对模型的质量产生影响。

论文:https://www.arxiv.org/pdf/2407.00088

目录
打赏
0
10
10
2
396
分享
相关文章
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
Dream-7B是由香港大学与华为诺亚方舟实验室联合研发的开源扩散大语言模型,采用独特的掩码扩散范式,在文本生成、数学推理和代码编写等任务中展现出卓越性能。
87 3
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
146 8
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
RAGEN是一个基于StarPO框架的开源强化学习系统,通过马尔可夫决策过程形式化Agent与环境的交互,支持PPO、GRPO等多种优化算法,显著提升多轮推理训练的稳定性。
59 5
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象,完全离线运行,保护用户隐私。
219 10
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
89.4K star!这个开源LLM应用开发平台,让你轻松构建AI工作流!
Dify 是一款开源的 LLM 应用开发平台,通过直观的可视化界面整合 AI 工作流、RAG 管道、智能代理等功能,助你快速实现从原型到生产的跨越。支持本地部署和云端服务,提供企业级功能与完整 API 接口。
|
2月前
|
在Docker上部署Ollama+AnythingLLM完成本地LLM Agent部署
通过以上步骤,您可以成功在Docker上部署Ollama和AnythingLLM,实现本地LLM Agent的功能。在部署过程中,确保环境和配置正确,以避免不必要的问题。希望本文能够帮助您顺利完成部署,并在本地环境中高效地使用LLM模型。
695 8
关于LLM-as-a-judge范式,终于有综述讲明白了
《From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge》探讨了大型语言模型(LLM)在评估和判断任务中的应用。传统方法存在不足,而LLM凭借强大的语言理解和生成能力,展现了广阔的应用前景。论文从输入输出角度定义LLM-as-a-judge,提出三维度分类体系,并汇编评估基准,指出关键挑战如偏见、可解释性和对抗性攻击,展望未来改进方向,强调其潜力与价值。论文链接:https://arxiv.org/abs/2411.16594
71 1
企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南
企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南
122 12
Crawl4LLM:你的模型还在吃垃圾数据?CMU博士开源AI爬虫,自动筛选高价值网页,数据抓取质量飙升300%
Crawl4LLM 是清华大学和卡内基梅隆大学联合开发的智能爬虫系统,通过网页价值评估和优先级队列技术,显著提升大语言模型预训练数据采集效率。
189 4
MoBA:LLM长文本救星!月之暗面开源新一代注意力机制:处理1000万token能快16倍,已在Kimi上进行验证
MoBA 是一种新型注意力机制,通过块稀疏注意力和无参数门控机制,显著提升大型语言模型在长上下文任务中的效率。
156 3

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等