BitNet b1.58：开启1位LLM时代，全大型语言模型都在1.58位-阿里云开发者社区

BitNet b1.58：开启1位LLM时代，全大型语言模型都在1.58位

2024-03-01 376

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大型语言模型（LLM）在自然语言处理领域取得了显著的成果。然而，这些模型的训练和运行需要大量的计算资源和时间，同时也产生了高昂的能耗。为了解决这些问题，我国研究人员提出了一种名为BitNet b1.58的技术，将大型语言模型的精度降低到1位，从而在保证性能的同时，大幅提高了运行效率和降低了能耗。

大型语言模型（LLM）在自然语言处理领域取得了显著的成果。然而，这些模型的训练和运行需要大量的计算资源和时间，同时也产生了高昂的能耗。为了解决这些问题，我国研究人员提出了一种名为BitNet b1.58的技术，将大型语言模型的精度降低到1位，从而在保证性能的同时，大幅提高了运行效率和降低了能耗。

研究人员将BitNet b1.58与各种大小的FP16 LLaMA LLM进行了比较，发现当模型大小为3B时，BitNet b1.58在速度上比LLaMA LLM提高了2.71倍，使用的GPU内存减少了3.55倍。特别是当模型大小为3.9B时，BitNet b1.58的速度是LLaMA LLM 3B的2.4倍，消耗的内存减少了3.32倍，性能显著优于LLaMA LLM 3B。

BitNet b1.58和LLaMA LLM之间的性能差距逐渐缩小。更为重要的是，BitNet b1.58可以匹配从3B大小开始的全精度基线的性能。在困惑度观察和最终任务结果方面，BitNet b1.58都表现出了优于LLaMA LLM的性能。

研究人员对BitNet b1.58和LLaMA LLM的算术运算能耗进行了评估，发现BitNet b1.58在7nm芯片上的矩阵乘法运算能耗比LLaMA LLM节省了71.4倍。而且，随着模型规模的扩大，BitNet b1.58在能耗方面变得越来越高效。
在吞吐量方面，研究人员比较了BitNet b1.58和LLaMA LLM在70B参数体量上在两个80GB A100卡上的吞吐量，发现BitNet b1.58 70B最多可以支持LLaMA LLM batch size的11倍，从而将吞吐量提高8.9倍。

BitNet b1.58：开启1位LLM时代，全大型语言模型都在1.58位

热门文章

最新文章

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

BitNet b1.58：开启1位LLM时代，全大型语言模型都在1.58位

热门文章

最新文章

相关电子书

相关实验场景