BitNet b1.58:开启1位LLM时代,全大型语言模型都在1.58位

简介: 大型语言模型(LLM)在自然语言处理领域取得了显著的成果。然而,这些模型的训练和运行需要大量的计算资源和时间,同时也产生了高昂的能耗。为了解决这些问题,我国研究人员提出了一种名为BitNet b1.58的技术,将大型语言模型的精度降低到1位,从而在保证性能的同时,大幅提高了运行效率和降低了能耗。

大型语言模型(LLM)在自然语言处理领域取得了显著的成果。然而,这些模型的训练和运行需要大量的计算资源和时间,同时也产生了高昂的能耗。为了解决这些问题,我国研究人员提出了一种名为BitNet b1.58的技术,将大型语言模型的精度降低到1位,从而在保证性能的同时,大幅提高了运行效率和降低了能耗。

image.png

研究人员将BitNet b1.58与各种大小的FP16 LLaMA LLM进行了比较,发现当模型大小为3B时,BitNet b1.58在速度上比LLaMA LLM提高了2.71倍,使用的GPU内存减少了3.55倍。特别是当模型大小为3.9B时,BitNet b1.58的速度是LLaMA LLM 3B的2.4倍,消耗的内存减少了3.32倍,性能显著优于LLaMA LLM 3B。

image.png

BitNet b1.58和LLaMA LLM之间的性能差距逐渐缩小。更为重要的是,BitNet b1.58可以匹配从3B大小开始的全精度基线的性能。在困惑度观察和最终任务结果方面,BitNet b1.58都表现出了优于LLaMA LLM的性能。

image.png

研究人员对BitNet b1.58和LLaMA LLM的算术运算能耗进行了评估,发现BitNet b1.58在7nm芯片上的矩阵乘法运算能耗比LLaMA LLM节省了71.4倍。而且,随着模型规模的扩大,BitNet b1.58在能耗方面变得越来越高效。
在吞吐量方面,研究人员比较了BitNet b1.58和LLaMA LLM在70B参数体量上在两个80GB A100卡上的吞吐量,发现BitNet b1.58 70B最多可以支持LLaMA LLM batch size的11倍,从而将吞吐量提高8.9倍。

image.png

目录
相关文章
|
21天前
|
人工智能 自然语言处理 机器人
“大型语言模型”和“LLM”这些术语将变得不那么常见
【1月更文挑战第7天】“大型语言模型”和“LLM”这些术语将变得不那么常见
60 1
“大型语言模型”和“LLM”这些术语将变得不那么常见
|
21天前
|
API 算法框架/工具 异构计算
Python中Keras微调Google Gemma:定制化指令增强大语言模型LLM
Python中Keras微调Google Gemma:定制化指令增强大语言模型LLM
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】什么是大型语言模型(LLM)?
【5月更文挑战第4天】【大模型】什么是大型语言模型(LLM)?
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会“图的语言”
【5月更文挑战第1天】谷歌在ICLR 2024提出新方法,使大语言模型(LLM)性能提升高达60%,通过结合图神经网络(GNN),LLM学会理解与生成“图的语言”,打破处理复杂任务的局限。此创新模型适用于社交网络分析等领域,但面临计算资源需求大和模型解释性问题。研究强调需确保LLM在道德和法律框架内使用。论文链接:https://openreview.net/pdf?id=IuXR1CCrSi
51 3
|
21天前
|
存储 机器学习/深度学习 算法
10个大型语言模型(LLM)常见面试问题和答案解析
今天我们来总结以下大型语言模型面试中常问的问题
64 0
|
21天前
|
自然语言处理 算法 搜索推荐
基于LLM(Large Language Model,大语言模型)的智能问答系统
基于LLM(Large Language Model,大语言模型)的智能问答系统
221 6
|
21天前
|
人工智能 iOS开发 MacOS
Ollama--本地大语言模型LLM运行专家
Ollama--本地大语言模型LLM运行专家
1121 2
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
大语言模型LLM中的幻觉
大语言模型LLM中的幻觉
148 0
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
2023年排行前五的大规模语言模型(LLM)
截至2023年,人工智能正在风靡全球。它已经成为热门的讨论话题,吸引了数百万人的关注,不仅限于技术专家和研究人员,还包括来自不同背景的个人。人们对人工智能热情高涨的原因之一是其在人类多年来处理的各种形式的领域中所具备的能力,其中包括语言。语言是人类生活的一个组成部分,它帮助我们交流,理解我们周围的事物,甚至帮助我们思考。但是,如今人工智能已经更有能力处理与人类水平甚至高于人类水平的语言。这是由于自然语言处理(NLP)和大型语言模型(LLMs)的进步,ChatGPT的背后就是其中之一,这是总部位于旧金山的初创公司OpenAI的伟大创举。但是,OpenAI成为成功将其LLM技术推向公众的公司之一。
|
21天前
|
机器学习/深度学习 自然语言处理 安全
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
358 0