将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可


机器之心编译编辑:袁铭怿

我们可以压缩大型语言模型以获得更好的性能吗? 本文中,研究者提出了剪枝技术 SparseGPT,可以一次性修剪至少 50% 的稀疏性,而无需任何重新训练,并且准确率损失最小。

GPT 家族的大型语言模型(LLMs)在诸多任务中取得了出色的表现,但模型庞大的规模和高昂的计算成本也增加了部署难度。例如,性能最好的 GPT-175B 模型约有 1750 亿参数,以半精度(FP16)格式计算,总计至少占 320GB(计算 1024 的倍数)的存储空间,所以需要至少 5 个 A100 GPU,且在推理时,每个 GPU 都起码需要有 80GB 的内存。因此,自然就需要通过模型压缩来降低成本。迄今为止,几乎所有现有的 GPT 压缩方法都侧重于量化,即降低单个权重数值表示的精确度。

剪枝是一种较为普遍的模型压缩方法,它将网络元素从单个权重(非结构化剪枝)删除到更高粒度的组件,例如权重矩阵的整行 / 列(结构化剪枝)。该方法已经投入使用一段时间了,能够有效地应用于视觉和较小规模的语言模型和任务。然而,最优的剪枝方法需要对模型进行大量的再训练,以恢复删除的元素所造成的准确率损失,所以遇到向 GPT 这样规模的模型时,成本也会极为高昂。虽然也存在一些 one-shot 剪枝方法,无需重新训练即可压缩模型,但弊端在于,它们的计算成本太高,无法应用于具有数十亿个参数的模型。因此,到目前为止,几乎没有能对 GPT-3 比例模型进行精确剪枝的方法。

本文中,来自奥地利科技学院等机构的研究者提出 SparseGPT,其是目前首个 one-shot 精确剪枝技术,可以在 100 - 1000 亿参数的模型规模上有效地运作。SparseGPT 的工作原理是将剪枝问题简化为大规模的稀疏回归实例。它基于新的近似稀疏回归求解器,用于解决分层压缩问题,其效率足以在几个小时内使用单个 GPU 在最大的 GPT 模型(175B 参数)上执行。同时,SparseGPT 准确率足够高,不需要任何微调,剪枝后所损耗的准确率也可以忽略不计。例如,当在最大的公开可用的生成语言模型(OPT-175B 和 BLOOM-176B)上执行时,SparseGPT 在 one-shot 测试中剪枝到 50-60% 的稀疏性,无论是以困惑度还是 zero-shot 测试准确率来衡量,损失准确率都极小。

论文地址:https://arxiv.org/pdf/2301.00774v1.pdf图 1 为实验结果,有以下两个关键点需要说明:首先,如图 1(左)所示,SparseGPT 可以在 OPT 家族的 1750 亿参数变量中剪枝到高达 60% 的均匀分层稀疏性,而几乎不会损失精度。相比之下,唯一已知的在此规模下工作的 one-shot 基线 —— 幅度剪枝(Magnitude Pruning)的准确率仅保持到 10% 的稀疏度,并在超过 30% 的稀疏度时完全崩掉。

其次,如图 1(右)所示,SparseGPT 还可以在更严格但对硬件友好的 2:4 和 4:8 半结构化稀疏模式中准确地施加稀疏性。尽管相对于密集基线,这些模式往往会失去额外的准确性,特别是对于较小的模型而言,但计算速度可以直接通过这些稀疏模式得出。此外,由技术引起的稀疏性与通过量化获得的额外压缩可以很好地混合在一起。

值得注意的是,该方法仅针对局部,从某种意义上说,它依赖于权重更新,旨在保留每一层的输入输出关系,计算是在没有任何全局梯度信息的梯度下进行的。因此,用户可以直接识别密集预训练模型近邻中的稀疏精确模型。另一处发现如图 1(右)所示:较大的模型更容易稀疏化。具体来说,对于一个固定的稀疏水平,随着模型大小的增加,稠密和稀疏模型变体之间的相对准确率差距会随之缩小,如此一来,如果将最大的模型剪枝到 50% 的稀疏性,实际上不会降低准确率。实验部分会详细说明这一观察结果,对于未来压缩巨型模型的研究而言,这具有极大的鼓舞性。SparseGPT 算法概览SparseGPT 重建算法的可视化。给定一个固定的修剪掩码 M,使用 Hessian 逆序列,增量地修剪权重矩阵 W 的每一列的权重,并更新这些行中的其余权重(位于正在处理的列的右侧)。具体来说,修剪权重的右边(深蓝色部分)将被更新以补偿修剪错误,而未修剪的权重不生成更新(浅蓝色部分)。

下图是完整算法伪代码:

实验结果该研究进行了多项实验。第一组实验研究了 LLM 稀疏化的难度如何随着大小而变化。为此,研究考虑到了整个 OPT 模型家族,并统一剪枝所有线性层(不包括标准的嵌入和头部),分别达到 50% 的非结构化稀疏度,4:8 或 2:4 的半结构化稀疏度。(这三种模式都对应 50% 的整体稀疏度,但 2:4 模式最为严格的,其次是 4:8 和非结构化稀疏度。)表 1 中给出了原始 WikiText2 性能数据,具体可视化结果参见图 1(右)。

接下来,是对目前公开可用最大规模的密集模型 OPT-175B 和 BLOOM-176B 的研究结果,以及对它们的性能如何随着 SparseGPT 或幅度剪枝的稀疏程度而缩放的结果。结果见图 1(左)和图 5(左)。

下面提供了几个 ZeroShot 任务中 OPT-175B 的各种稀疏变体的结果来补充该研究对困惑度的评估。众所周知,ZeroShot 的评估相对嘈杂,但同时更容易阐释。表 2 汇总了所有的数据。

最后,另一个研究方向是将稀疏性和量化结合,即将稀疏性可以加速计算和量化可以节省内存两点相结合。具体来说,如果将一个模型压缩到 50% 稀疏 + 4 位权重,只存储非零权重并使用位掩码来指示它们的位置,那么这与 3 位量化消耗的总体内存是相同的。图 5(右)将 SparseGPT 50% + 4 位数字与最先进的 GPTQ 3 位数字进行比较。虽然似乎有一些异常值,但对于一些模型来说,50% + 4 位模型比各自的 3 位版本更准确,包括 175B 的 8.55 vs. 8.68 3 位。2:4 和 4:8 与 4 位的组合也在 OPT-175B 上进行了测试,产生的测试结果显示:困惑度为 9.20 和 8.86,使用额外的量化技巧(如 blocking)也许能实现进一步的改进。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
143 2
|
2月前
|
数据采集 API 决策智能
华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一
 【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE,一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据,显著提升大型语言模型(LLM)的功能调用能力。实验结果显示,使用ToolACE数据训练的80亿参数模型性能媲美GPT-4,在伯克利功能调用排行榜上获得开源第一。
86 4
|
3月前
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
1343 11
|
11天前
|
数据采集 人工智能 数据可视化
InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o
近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。
|
2月前
|
测试技术 异构计算
|
26天前
|
自然语言处理 搜索推荐 Serverless
基于函数计算部署GPT-Sovits模型实现语音生成
阿里云开发者社区邀请您参加“基于函数计算部署GPT-Sovits模型实现语音生成”活动。完成指定任务即可获得收纳箱一个。活动时间从即日起至2024年12月13日24:00:00。快来报名吧!
|
26天前
|
弹性计算 自然语言处理 搜索推荐
活动实践 | 基于函数计算部署GPT-Sovits模型实现语音生成
通过阿里云函数计算部署GPT-Sovits模型,可快速实现个性化声音的文本转语音服务。仅需少量声音样本,即可生成高度仿真的语音。用户无需关注服务器维护与环境配置,享受按量付费及弹性伸缩的优势,轻松部署并体验高质量的语音合成服务。
|
2月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
179 60
|
29天前
|
机器学习/深度学习 测试技术 PyTorch
深度学习之测量GPU性能的方式
在深度学习中,测量GPU性能是一个多方面的任务,涉及运行时间、吞吐量、GPU利用率、内存使用情况、计算能力、端到端性能测试、显存带宽、框架自带性能工具和基准测试工具等多种方法。通过综合使用这些方法,可以全面评估和优化GPU的性能,提升深度学习任务的效率和效果。
33 5
|
1月前
|
人工智能 弹性计算 编解码
阿里云GPU云服务器性能、应用场景及收费标准和活动价格参考
GPU云服务器作为阿里云提供的一种高性能计算服务,通过结合GPU与CPU的计算能力,为用户在人工智能、高性能计算等领域提供了强大的支持。其具备覆盖范围广、超强计算能力、网络性能出色等优势,且计费方式灵活多样,能够满足不同用户的需求。目前用户购买阿里云gpu云服务器gn5 规格族(P100-16G)、gn6i 规格族(T4-16G)、gn6v 规格族(V100-16G)有优惠,本文为大家详细介绍阿里云gpu云服务器的相关性能及收费标准与最新活动价格情况,以供参考和选择。

热门文章

最新文章

下一篇
DataWorks