大型语言模型(LLM)在自然语言处理领域取得了显著的成果。然而,这些模型的训练和运行需要大量的计算资源和时间,同时也产生了高昂的能耗。为了解决这些问题,我国研究人员提出了一种名为BitNet b1.58的技术,将大型语言模型的精度降低到1位,从而在保证性能的同时,大幅提高了运行效率和降低了能耗。
研究人员将BitNet b1.58与各种大小的FP16 LLaMA LLM进行了比较,发现当模型大小为3B时,BitNet b1.58在速度上比LLaMA LLM提高了2.71倍,使用的GPU内存减少了3.55倍。特别是当模型大小为3.9B时,BitNet b1.58的速度是LLaMA LLM 3B的2.4倍,消耗的内存减少了3.32倍,性能显著优于LLaMA LLM 3B。
BitNet b1.58和LLaMA LLM之间的性能差距逐渐缩小。更为重要的是,BitNet b1.58可以匹配从3B大小开始的全精度基线的性能。在困惑度观察和最终任务结果方面,BitNet b1.58都表现出了优于LLaMA LLM的性能。
研究人员对BitNet b1.58和LLaMA LLM的算术运算能耗进行了评估,发现BitNet b1.58在7nm芯片上的矩阵乘法运算能耗比LLaMA LLM节省了71.4倍。而且,随着模型规模的扩大,BitNet b1.58在能耗方面变得越来越高效。
在吞吐量方面,研究人员比较了BitNet b1.58和LLaMA LLM在70B参数体量上在两个80GB A100卡上的吞吐量,发现BitNet b1.58 70B最多可以支持LLaMA LLM batch size的11倍,从而将吞吐量提高8.9倍。