1-bit大模型:开启生成式AI新时代

简介: 由微软亚洲研究院、中国科学院大学等机构的研究人员提交的一篇论文在AI圈引起广泛关注。他们提出了一种1-bit大模型,实现效果让人震惊。如果这种方法可以广泛应用,这可能是生成式AI的新时代。

近年来,大语言模型(LLM)的参数规模和能力快速增长,其在自然语言处理任务中的卓越表现,让人惊艳。然而,这也带来了部署挑战,以及高能耗引发的环境和经济影响。因此,研究人员一直在寻找解决方案,以降低大模型在推理过程中的内存和计算需求。
近日,由微软亚洲研究院、中国科学院大学等机构的研究人员提交的一篇论文在AI圈引起广泛关注。他们提出了一种1-bit大模型,实现效果让人震惊。如果这种方法可以广泛应用,这可能是生成式AI的新时代。

image.png

在过去的几年里,大语言模型的参数规模和能力快速增长,表现出了卓越的性能,同时也带来挑战。为了降低大模型在推理过程中的内存和计算需求,研究人员提出使用后训练(post-training)量化技术来创建低bit推理模型。这类技术可以降低权重和激活函数的精度,从16 bits转向更低的bit,比如4 bits。然而,尽管这类量化技术在LLM中广泛使用,但并不是最优的。
微软亚洲研究院、国科大等机构的研究人员提出了BitNet,这是一种支持训练1-bit大语言模型的新型网络结构。BitNet具有强大的可扩展性和稳定性,能够显著减少大语言模型的训练和推理成本。与最先进的8-bit量化方法和全精度Transformer基线相比,BitNet在大幅降低内存占用和计算能耗的同时,表现出了极具竞争力的性能。
更让人振奋的是,BitNet的研究团队最近推出了BitNet b1.58,这是一种重要的1-bit变体。在原来的1-bit基础上,他们添加了一个附加值0,得到二进制系统中的1.58 bits。BitNet b1.58继承了原始1-bit BitNet的所有优点,包括新的计算范式,使得矩阵乘法几乎不需要乘法运算,并可以进行高度优化。同时,BitNet b1.58具有与原始1-bit BitNet相同的能耗,相较于FP16 LLM基线在内存消耗、吞吐量和延迟方面更加高效。
BitNet b1.58的建模能力更强,这是由于它明确支持了特征过滤,在模型权重中包含了0值,显著提升了1-bit LLM的性能。实验结果表明,当使用相同配置(比如模型大小、训练token数)时,从3B参数规模开始,BitNet b1.58在困惑度和最终任务的性能方面媲美全精度(FP16)基线方法。
如下图所示,BitNet b1.58为降低LLM推理成本(延迟、吞吐量和能耗)并保持模型性能提供了一个帕累托(Pareto)解决方案。

image.png

BitNet b1.58是基于BitNet架构,并且用BitLinear替代nn.Linear的Transformer。它是从头开始训练的,具有1.58 bit权重和8 bit激活。与原始BitNet架构相比,它引入了一些修改。用于激活的量化函数与BitNet中的实现相同,只是该研究没有将非线性函数之前的激活缩放到[0, Q_b]范围。相反,每个token的激活范围为[-Q_b, Q_b],从而消除零点量化。这样做对于实现和系统级优化更加方便和简单,同时对实验中的性能产生的影响可以忽略不计。

image.png与LLaMA类似的组件。LLaMA架构已成为开源大语言模型的基本标准。为了拥抱开源社区,该研究设计的BitNet b1.58采用了类似LLaMA的组件。具体来说,它使用了RMSNorm、SwiGLU、旋转嵌入,并且移除了所有偏置。通过这种方式,BitNet b1.58可以很容易的集成到流行的开源软件中(例如,Huggingface、vLLM和llama.cpp2)。

目录
相关文章
|
1月前
|
人工智能 并行计算 安全
从零到一,打造专属AI王国!大模型私有化部署全攻略,手把手教你搭建、优化与安全设置
【10月更文挑战第24天】本文详细介绍从零开始的大模型私有化部署流程,涵盖需求分析、环境搭建、模型准备、模型部署、性能优化和安全设置六个关键步骤,并提供相应的示例代码,确保企业能够高效、安全地将大型AI模型部署在本地或私有云上。
302 7
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
17天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
76 3
|
27天前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
105 2
|
5天前
|
人工智能 自然语言处理 算法
具身智能高校实训解决方案 ----从AI大模型+机器人到通用具身智能
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台。
128 64
|
4天前
|
机器学习/深度学习 人工智能 语音技术
Fugatto:英伟达推出的多功能AI音频生成模型
Fugatto是由英伟达推出的多功能AI音频生成模型,能够根据文本提示生成音频或视频,并修改现有音频文件。该模型基于增强型的Transformer模型,支持复杂的组合指令,具有强大的音频生成与转换能力,广泛应用于音乐创作、声音设计、语音合成等领域。
45 1
Fugatto:英伟达推出的多功能AI音频生成模型
|
20天前
|
人工智能 弹性计算 Serverless
触手可及,函数计算玩转 AI 大模型 | 简单几步,轻松实现AI绘图
本文介绍了零售业中“人—货—场”三要素的变化,指出传统营销方式已难以吸引消费者。现代消费者更注重个性化体验,因此需要提供超出预期的内容。文章还介绍了阿里云基于函数计算的AI大模型,特别是Stable Diffusion WebUI,帮助非专业人士轻松制作高质量的促销海报。通过详细的部署步骤和实践经验,展示了该方案在实际生产环境中的应用价值。
64 6
触手可及,函数计算玩转 AI 大模型 | 简单几步,轻松实现AI绘图
|
1月前
|
存储 人工智能 数据可视化
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
在数字化时代,企业面临海量客户对话数据处理的挑战。阿里云推出的“AI大模型助力客户对话分析”解决方案,通过先进的AI技术和智能化分析,帮助企业精准识别客户意图、发现服务质量问题,并生成详尽的分析报告和可视化数据。该方案采用按需付费模式,有效降低企业运营成本,提升客服质量和销售转化率。
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
|
16天前
|
人工智能 新制造 芯片
2024年中国AI大模型产业发展报告解读
2024年,中国AI大模型产业迎来蓬勃发展,成为科技和经济增长的新引擎。本文解读《2024年中国AI大模型产业发展报告》,探讨产业发展背景、现状、挑战与未来趋势。技术进步显著,应用广泛,但算力瓶颈、资源消耗和训练数据不足仍是主要挑战。未来,云侧与端侧模型分化、通用与专用模型并存、大模型开源和芯片技术升级将是主要发展方向。
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
【10月更文挑战第31天】2024年,AI大模型在软件开发领域的应用取得了显著进展,从自动化代码生成、智能代码审查到智能化测试,极大地提升了开发效率和代码质量。然而,技术挑战、伦理与安全问题以及模型可解释性仍是亟待解决的关键问题。开发者需不断学习和适应,以充分利用AI的优势。