BitNet b1.58:开启1位LLM时代,全大型语言模型都在1.58位

简介: 大型语言模型(LLM)在自然语言处理领域取得了显著的成果。然而,这些模型的训练和运行需要大量的计算资源和时间,同时也产生了高昂的能耗。为了解决这些问题,我国研究人员提出了一种名为BitNet b1.58的技术,将大型语言模型的精度降低到1位,从而在保证性能的同时,大幅提高了运行效率和降低了能耗。

大型语言模型(LLM)在自然语言处理领域取得了显著的成果。然而,这些模型的训练和运行需要大量的计算资源和时间,同时也产生了高昂的能耗。为了解决这些问题,我国研究人员提出了一种名为BitNet b1.58的技术,将大型语言模型的精度降低到1位,从而在保证性能的同时,大幅提高了运行效率和降低了能耗。

image.png

研究人员将BitNet b1.58与各种大小的FP16 LLaMA LLM进行了比较,发现当模型大小为3B时,BitNet b1.58在速度上比LLaMA LLM提高了2.71倍,使用的GPU内存减少了3.55倍。特别是当模型大小为3.9B时,BitNet b1.58的速度是LLaMA LLM 3B的2.4倍,消耗的内存减少了3.32倍,性能显著优于LLaMA LLM 3B。

image.png

BitNet b1.58和LLaMA LLM之间的性能差距逐渐缩小。更为重要的是,BitNet b1.58可以匹配从3B大小开始的全精度基线的性能。在困惑度观察和最终任务结果方面,BitNet b1.58都表现出了优于LLaMA LLM的性能。

image.png

研究人员对BitNet b1.58和LLaMA LLM的算术运算能耗进行了评估,发现BitNet b1.58在7nm芯片上的矩阵乘法运算能耗比LLaMA LLM节省了71.4倍。而且,随着模型规模的扩大,BitNet b1.58在能耗方面变得越来越高效。
在吞吐量方面,研究人员比较了BitNet b1.58和LLaMA LLM在70B参数体量上在两个80GB A100卡上的吞吐量,发现BitNet b1.58 70B最多可以支持LLaMA LLM batch size的11倍,从而将吞吐量提高8.9倍。

image.png

目录
相关文章
|
人工智能 自然语言处理 机器人
“大型语言模型”和“LLM”这些术语将变得不那么常见
【1月更文挑战第7天】“大型语言模型”和“LLM”这些术语将变得不那么常见
220 1
“大型语言模型”和“LLM”这些术语将变得不那么常见
|
2月前
|
人工智能 缓存 监控
MCP零基础学习(6)|与大型语言模型(LLM)的深度融合
本文是MCP系列教程的进阶篇,重点讲解如何将MCP与各类大语言模型深度集成,覆盖本地模型(Ollama、vLLM)和在线服务(OpenAI、DeepSeek)的接入方法,并详解提示词模板设计与上下文管理技巧。通过具体代码示例和架构解析,帮助开发者构建灵活、高效的AI应用系统,实现更智能的模型调度与资源利用。
|
人工智能 自然语言处理
FBI-LLM低比特基础大语言模型来了,首个完全从头训练的二值化语言模型
【8月更文挑战第22天】《FBI-LLM:通过自回归蒸馏从头开始扩展全二值化大语言模型》由Ma等学者发布于arXiv。该研究呈现了首个完全从头训练的全二值化大语言模型FBI-LLM,在不牺牲性能的前提下大幅降低计算资源需求。通过自回归蒸馏技术,FBI-LLM在多种任务上展现出与高精度模型相当的表现,为二值化模型的发展开辟新路径,并有望推动专用硬件的进步。研究者公开了所有相关资源以促进领域内的进一步探索。
190 10
|
10月前
|
JSON 人工智能 算法
探索大型语言模型LLM推理全阶段的JSON格式输出限制方法
本篇文章详细讨论了如何确保大型语言模型(LLMs)输出结构化的JSON格式,这对于提高数据处理的自动化程度和系统的互操作性至关重要。
1202 48
|
安全 异构计算
为大型语言模型 (LLM) 提供服务需要多少 GPU 内存?
为大型语言模型 (LLM) 提供服务需要多少 GPU 内存?
为大型语言模型 (LLM) 提供服务需要多少 GPU 内存?
|
SQL 监控 测试技术
|
人工智能 安全 物联网
2024年6月后2周重要的大语言模型论文总结:LLM进展、微调、推理和对齐
本文总结了2024年6月后两周发表的一些最重要的大语言模型论文。这些论文涵盖了塑造下一代语言模型的各种主题,从模型优化和缩放到推理、基准测试和增强性能。
482 0
|
机器学习/深度学习 自然语言处理 索引
AIGC:LLM大型语言模型是怎么交流的? ———分词
AIGC:LLM大型语言模型是怎么交流的? ———分词
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】什么是大型语言模型(LLM)?
【5月更文挑战第4天】【大模型】什么是大型语言模型(LLM)?
|
API 算法框架/工具 异构计算
Python中Keras微调Google Gemma:定制化指令增强大语言模型LLM
Python中Keras微调Google Gemma:定制化指令增强大语言模型LLM

热门文章

最新文章