微软SliceGPT让LLAMA-2计算效率大增

简介: 【2月更文挑战第13天】微软SliceGPT让LLAMA-2计算效率大增

505cfcbe951bc5eb43068796a2656ab5.jpg
在人工智能领域,大型语言模型(LLM)的快速发展推动了自然语言处理技术的革新与应用。然而,这些模型通常具有巨大的参数量和高昂的计算成本,这给它们的训练和应用带来了挑战。为了解决这一问题,微软提出了一种名为SliceGPT的模型压缩方法,特别适用于参数量庞大的LLAMA-2模型。通过删除权重矩阵中的行和列,SliceGPT在保持模型性能的同时,大幅减少了模型的计算需求,从而显著提高了计算效率。

传统的模型压缩技术包括蒸馏、张量分解、剪枝和量化等方法,这些方法可以在一定程度上减少模型的计算需求。然而,许多方法需要在剪枝后进行恢复微调以保持性能,这增加了成本且难以扩展。相比之下,SliceGPT方法无需额外的微调即可在生成和下游任务中保持有竞争力的性能。

SliceGPT的核心思想是利用Transformer架构中的计算不变性,通过删除权重矩阵的整行或整列来降低网络的嵌入维度,从而实现模型的压缩。这种方法的独特之处在于,它不仅能够有效地减少模型的参数量,还能够保持模型的性能,使其在实际应用中更具有竞争力。

通过对LLAMA-2 70B、OPT 66B 和 Phi-2 模型的实验,发现SliceGPT可以为这些模型去除多达25%的模型参数,同时保持模型的零样本任务性能。经过SliceGPT处理的模型在WikiText-2数据集和Alpaca数据集上取得了良好的性能表现,表明了其在压缩大型语言模型方面的有效性和可行性。在实际应用中,这将为模型的训练和部署带来重大的效益,降低了成本,提高了效率。

研究人员表示,有了SliceGPT,他们只需几个小时就能使用单个GPU压缩大型模型,即使没有恢复微调,也能在生成和下游任务中保持有竞争力的性能。此外,经过SliceGPT处理的模型可以在更少的GPU上运行,而且无需任何额外的代码优化即可更快地运行。这不仅提高了模型的计算效率,还加速了模型的应用和推广过程。

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能
昂贵LLM的救星?Nature新研究提出新型忆阻器,比Haswell CPU高效460倍
【10月更文挑战第11天】《自然》杂志最新研究介绍了一种新型忆阻器——线性对称自选14位动能分子忆阻器。该技术在神经网络训练和推理中表现出线性对称的权重更新、460倍于现有CPU的高能效及多级编程能力,有望大幅提升AI硬件的能源效率。尽管前景广阔,但仍需解决制造工艺复杂和环境影响等问题。
37 1
|
7天前
|
数据采集 人工智能 数据可视化
InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o
近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。
|
机器学习/深度学习 人工智能 自然语言处理
性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型
性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型
495 0
|
机器学习/深度学习 存储 人工智能
英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比更高?
训练和微调大型语言模型对于硬件资源的要求非常高。目前,主流的大模型训练硬件通常采用英特尔的CPU和英伟达的GPU。然而,最近苹果的M2 Ultra芯片和AMD的显卡进展给我们带来了一些新的希望。
1316 0
|
5月前
|
人工智能 边缘计算 算法
破解ChatGPT惊人耗电!DeepMind新算法训练提效13倍,能耗暴降10倍
【7月更文挑战第20天】DeepMind unveils Switch Transformer, revolutionizing AI energy consumption. This novel algorithm boosts training efficiency by 13x and slashes energy use by 10x compared to ChatGPT, marking a significant leap towards eco-friendly AI.
54 2
|
7月前
|
数据采集 人工智能 自然语言处理
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
【4月更文挑战第12天】谷歌DeepMind的Gecko模型以小巧身形(256维)展现出媲美大型语言模型的检索性能,且在MTEB基准测试中超越768维模型。采用两步蒸馏法训练,适用于多任务及硬件环境,尤其在多语言处理上表现出色。尽管训练成本高、泛化能力待优化,但其创新为文本嵌入技术带来新可能。
123 7
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
|
7月前
|
机器学习/深度学习 数据处理
苹果新研究提升服务大模型效率
【2月更文挑战第29天】苹果公司研发的ReDrafter是一种新型推测解码方法,旨在提高大型语言模型的推理效率。该方法结合双模型和单模型优点,使用轻量级草稿头及递归依赖设计,优化内存和计算资源,降低推理延迟。实验显示,ReDrafter在性能上超越了现有方法,尤其适合需要快速响应的场景。这一突破为大型语言模型的效率提升提供了新思路,但也面临准确性和复杂性权衡以及集成挑战。论文链接:[https://arxiv.org/pdf/2403.09919.pdf](https://arxiv.org/pdf/2403.09919.pdf)
49 2
苹果新研究提升服务大模型效率
|
7月前
|
人工智能 安全 测试技术
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
【2月更文挑战第18天】Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
76 3
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
|
安全 API
斯坦福2023【FrugalGPT】减少大模型的商业化应用成本
斯坦福2023【FrugalGPT】减少大模型的商业化应用成本
113 0
斯坦福2023【FrugalGPT】减少大模型的商业化应用成本
|
机器学习/深度学习 计算机视觉
模型大十倍,性能提升几倍?谷歌研究员进行了一番研究
模型大十倍,性能提升几倍?谷歌研究员进行了一番研究
180 0