1-bit大模型:开启生成式AI新时代

简介: 由微软亚洲研究院、中国科学院大学等机构的研究人员提交的一篇论文在AI圈引起广泛关注。他们提出了一种1-bit大模型,实现效果让人震惊。如果这种方法可以广泛应用,这可能是生成式AI的新时代。

近年来,大语言模型(LLM)的参数规模和能力快速增长,其在自然语言处理任务中的卓越表现,让人惊艳。然而,这也带来了部署挑战,以及高能耗引发的环境和经济影响。因此,研究人员一直在寻找解决方案,以降低大模型在推理过程中的内存和计算需求。
近日,由微软亚洲研究院、中国科学院大学等机构的研究人员提交的一篇论文在AI圈引起广泛关注。他们提出了一种1-bit大模型,实现效果让人震惊。如果这种方法可以广泛应用,这可能是生成式AI的新时代。

image.png

在过去的几年里,大语言模型的参数规模和能力快速增长,表现出了卓越的性能,同时也带来挑战。为了降低大模型在推理过程中的内存和计算需求,研究人员提出使用后训练(post-training)量化技术来创建低bit推理模型。这类技术可以降低权重和激活函数的精度,从16 bits转向更低的bit,比如4 bits。然而,尽管这类量化技术在LLM中广泛使用,但并不是最优的。
微软亚洲研究院、国科大等机构的研究人员提出了BitNet,这是一种支持训练1-bit大语言模型的新型网络结构。BitNet具有强大的可扩展性和稳定性,能够显著减少大语言模型的训练和推理成本。与最先进的8-bit量化方法和全精度Transformer基线相比,BitNet在大幅降低内存占用和计算能耗的同时,表现出了极具竞争力的性能。
更让人振奋的是,BitNet的研究团队最近推出了BitNet b1.58,这是一种重要的1-bit变体。在原来的1-bit基础上,他们添加了一个附加值0,得到二进制系统中的1.58 bits。BitNet b1.58继承了原始1-bit BitNet的所有优点,包括新的计算范式,使得矩阵乘法几乎不需要乘法运算,并可以进行高度优化。同时,BitNet b1.58具有与原始1-bit BitNet相同的能耗,相较于FP16 LLM基线在内存消耗、吞吐量和延迟方面更加高效。
BitNet b1.58的建模能力更强,这是由于它明确支持了特征过滤,在模型权重中包含了0值,显著提升了1-bit LLM的性能。实验结果表明,当使用相同配置(比如模型大小、训练token数)时,从3B参数规模开始,BitNet b1.58在困惑度和最终任务的性能方面媲美全精度(FP16)基线方法。
如下图所示,BitNet b1.58为降低LLM推理成本(延迟、吞吐量和能耗)并保持模型性能提供了一个帕累托(Pareto)解决方案。

image.png

BitNet b1.58是基于BitNet架构,并且用BitLinear替代nn.Linear的Transformer。它是从头开始训练的,具有1.58 bit权重和8 bit激活。与原始BitNet架构相比,它引入了一些修改。用于激活的量化函数与BitNet中的实现相同,只是该研究没有将非线性函数之前的激活缩放到[0, Q_b]范围。相反,每个token的激活范围为[-Q_b, Q_b],从而消除零点量化。这样做对于实现和系统级优化更加方便和简单,同时对实验中的性能产生的影响可以忽略不计。

image.png与LLaMA类似的组件。LLaMA架构已成为开源大语言模型的基本标准。为了拥抱开源社区,该研究设计的BitNet b1.58采用了类似LLaMA的组件。具体来说,它使用了RMSNorm、SwiGLU、旋转嵌入,并且移除了所有偏置。通过这种方式,BitNet b1.58可以很容易的集成到流行的开源软件中(例如,Huggingface、vLLM和llama.cpp2)。

目录
相关文章
|
7天前
|
人工智能 Kubernetes jenkins
容器化AI模型的持续集成与持续交付(CI/CD):自动化模型更新与部署
在前几篇文章中,我们探讨了容器化AI模型的部署、监控、弹性伸缩及安全防护。为加速模型迭代以适应新数据和业务需求,需实现容器化AI模型的持续集成与持续交付(CI/CD)。CI/CD通过自动化构建、测试和部署流程,提高模型更新速度和质量,降低部署风险,增强团队协作。使用Jenkins和Kubernetes可构建高效CI/CD流水线,自动化模型开发和部署,确保环境一致性并提升整体效率。
|
1天前
|
机器学习/深度学习 人工智能 并行计算
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。
50 15
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
|
1天前
|
编解码 人工智能 测试技术
|
8天前
|
机器学习/深度学习 人工智能 编解码
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。
388 2
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
|
5天前
|
人工智能 编解码 测试技术
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!
|
5天前
|
人工智能 Cloud Native 安全
《2025年度企业用云十大趋势》发布,AI云全面支撑大模型落地
《2025年度企业用云十大趋势》发布,AI云全面支撑大模型落地
|
5天前
|
人工智能 自然语言处理 机器人
招商银行X通义大模型 ,2024年度AI最佳实践案例!
招商银行X通义大模型 ,2024年度AI最佳实践案例!
|
5天前
|
人工智能 UED 智能硬件
活动报名|AI火花会线下沙龙:AI大模型助力视觉终端进化新未来​
活动报名|AI火花会线下沙龙:AI大模型助力视觉终端进化新未来​
|
6天前
|
人工智能 JavaScript 安全
如何在云效中使用 DeepSeek 等大模型实现 AI 智能评审
如何在云效中使用 DeepSeek 等大模型实现 AI 智能评审
|
7天前
|
机器学习/深度学习 人工智能 JSON
当 GIS 遇上 AI 大模型
当 GIS 遇上 AI 大模型

热门文章

最新文章