用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高

本文涉及的产品
文件存储 NAS,50GB 3个月
简介: 【6月更文挑战第20天】研究人员运用神经架构搜索(NAS)压缩LLM,如LLaMA2-7B,找到小而精准的子网,降低内存与计算成本,保持甚至提升性能。实验显示在多个任务上,模型大小减半,速度加快,精度不变或提升。NAS虽需大量计算资源,但结合量化技术,能有效优化大型语言模型。[论文链接](https://arxiv.org/pdf/2405.18377)**

随着大型语言模型(LLM)在自然语言处理(NLP)和复杂推理任务中的广泛应用,如何在保持或提高性能的同时减少模型的内存和计算成本,成为了一个重要的研究方向。

在这篇名为《LLAMA-NAS: Efficient Neural Architecture Search for Large Language Models》的论文中,来自Intel Labs的研究人员提出了一种基于神经架构搜索(NAS)的方法,用于优化LLM的架构,使其更小、更高效。他们以LLaMA2-7B模型为例,展示了通过NAS可以找到更小、更准确的子网络,从而在保持性能的同时减少模型的内存和计算需求。

神经架构搜索(NAS)是一种自动化设计神经网络的方法。它通过搜索大量的网络架构,并根据特定的性能指标(如准确率、运行时间等)进行评估和选择,从而找到最佳的网络架构。

在LLM中应用NAS可以带来两个方面的好处:首先,NAS可以通过搜索更小、更高效的子网络来减少模型的内存和计算需求;其次,NAS可以通过优化子网络的架构来提高模型的性能。

LLaMA2-7B模型是Meta Research开源的一个大型语言模型,它包含70亿个参数,并经过大规模的预训练。尽管LLaMA2-7B模型在许多任务上表现出色,但它的内存和计算需求也非常高,这使得它在许多实际应用场景下难以部署。

为了解决这个问题,研究人员提出了一种基于NAS的方法,用于优化LLaMA2-7B模型的架构。他们首先使用InstaTune方法对LLaMA2-7B模型进行微调,然后使用Lightweight Iterative Neural Architecture Search(LINAS)算法在微调后的模型上进行搜索。

研究人员在四个标准基准任务上进行了实验,包括AI2 Reasoning Challenge、Massive Multitask Language Understanding、TruthfulQA和WinoGrande。他们发现,通过NAS可以找到更小、更准确的子网络,从而在保持性能的同时减少模型的内存和计算需求。

例如,在AI2 Reasoning Challenge任务上,他们找到了一个比原始LLaMA2-7B模型小1.5倍的子网络,但准确率相同;在Massive Multitask Language Understanding任务上,他们找到了一个比原始模型小1.5倍、快1.3倍的子网络,但准确率提高了1.1%。

此外,他们还发现,通过将子网络进行量化(将权重从FP16转换为INT8),可以进一步减少模型的内存和计算需求,而准确率损失很小。

这篇论文展示了一种基于神经架构搜索的方法,用于优化LLM的架构,使其更小、更高效。通过在LLaMA2-7B模型上的实验,他们证明了NAS可以找到更小、更准确的子网络,从而在保持性能的同时减少模型的内存和计算需求。此外,他们还展示了量化技术可以进一步减少模型的内存和计算需求,而准确率损失很小。

然而,需要注意的是,NAS方法通常需要大量的计算资源和时间来完成搜索过程。此外,NAS方法的可解释性较差,难以理解为什么特定的子网络架构比其他架构更好。因此,在实际应用中,可能需要权衡NAS方法的好处和成本。

论文地址:https://arxiv.org/pdf/2405.18377

相关实践学习
基于ECS和NAS搭建个人网盘
本场景主要介绍如何基于ECS和NAS快速搭建个人网盘。
阿里云文件存储 NAS 使用教程
阿里云文件存储(Network Attached Storage,简称NAS)是面向阿里云ECS实例、HPC和Docker的文件存储服务,提供标准的文件访问协议,用户无需对现有应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。 产品详情:https://www.aliyun.com/product/nas
目录
相关文章
|
2月前
|
人工智能 自然语言处理
公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4
【8月更文挑战第3天】新论文提出“公理训练”法,使仅有6700万参数的语言模型掌握因果推理,性能媲美万亿级GPT-4。研究通过大量合成数据示例教授模型因果公理,实现有效推理并泛化至复杂图结构。尽管面临合成数据需求大及复杂关系处理限制,此法仍为语言模型的因果理解开辟新途径。[链接: https://arxiv.org/pdf/2407.07612]
53 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer
【7月更文挑战第21天】历经五年研发,斯坦福、UCSD等顶尖学府联合推出TTT架构,革新NLP领域。此架构以线性复杂度处理长序列,增强表达力及泛化能力,自监督学习下,测试阶段动态调整隐藏状态,显著提升效率与准确性。实验显示,TTT在语言模型与长序列任务中超越Transformer,论文详述于此:[https://arxiv.org/abs/2407.04620](https://arxiv.org/abs/2407.04620)。尽管如此,TTT仍需克服内存与计算效率挑战。
124 2
|
11天前
|
机器学习/深度学习
ACM MM24:复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它
【9月更文挑战第23天】复旦大学研究团队提出了ReToMe-VA,一种基于扩散模型的视频非限制性对抗攻击框架,通过时间步长对抗性潜在优化(TALO)与递归令牌合并(ReToMe)策略,实现了高转移性且难以察觉的对抗性视频生成。TALO优化去噪步骤扰动,提升空间难以察觉性及计算效率;ReToMe则确保时间一致性,增强帧间交互。实验表明,ReToMe-VA在攻击转移性上超越现有方法,但面临计算成本高、实时应用受限及隐私安全等挑战。[论文链接](http://arxiv.org/abs/2408.05479)
25 3
|
15天前
|
存储 机器学习/深度学习 物联网
CGE:基于Causal LLM的Code Embedding模型
CodeFuse-CGE 项目在外滩大会展出,吸引众多技术与产品从业者的关注。“文搜代码”功能备受好评,模型表现令人期待。CodeFuse-CGE 采用大语言模型,通过 LoRA 微调提取文本与代码嵌入,实现在多个 NL2Code 基准测试中超越现有 SOTA 模型。现已开源 CGE-Large 与 CGE-Small 两种模型,欢迎访问 GitHub 页并支持本项目。[项目地址](https://github.com/codefuse-ai/CodeFuse-CGE)
42 1
|
21天前
|
机器学习/深度学习 测试技术 数据处理
KAN专家混合模型在高性能时间序列预测中的应用:RMoK模型架构探析与Python代码实验
Kolmogorov-Arnold网络(KAN)作为一种多层感知器(MLP)的替代方案,为深度学习领域带来新可能。尽管初期测试显示KAN在时间序列预测中的表现不佳,近期提出的可逆KAN混合模型(RMoK)显著提升了其性能。RMoK结合了Wav-KAN、JacobiKAN和TaylorKAN等多种专家层,通过门控网络动态选择最适合的专家层,从而灵活应对各种时间序列模式。实验结果显示,RMoK在多个数据集上表现出色,尤其是在长期预测任务中。未来研究将进一步探索RMoK在不同领域的应用潜力及其与其他先进技术的结合。
61 4
|
20天前
|
安全 测试技术
世界模型又近了?MIT惊人研究:LLM已模拟现实世界,绝非随机鹦鹉!
【9月更文挑战第14天】麻省理工学院最近的研究揭示了大型语言模型(LLM)展现出的新潜能,其不仅能模仿真实环境,更在一定程度上理解并模拟程序在特定环境下的运作。通过使用Transformer模型并结合特定探测分类器,研究团队发现模型能逐步掌握程序的形式语义。为了验证这一发现,团队创建了一个独特的干预基准测试,进一步证实了模型的仿真能力,为世界模型的发展提供了新方向。尽管存在模型可能仅习得统计规律而非真正理解语义的争议,这项研究依然为理解复杂系统提供了新工具与视角。论文详情见:https://arxiv.org/abs/2305.11169。
26 1
|
1月前
|
分布式计算 负载均衡 监控
p2p网络架构模型
P2P(Peer-to-Peer)模式是一种网络架构模型,在这种模型中,每个节点(peer)既是服务的提供者也是服务的消费者。这意味着每个参与的节点都可以直接与其他节点通信,并且可以相互提供资源和服务,例如文件共享、流媒体传输等。
37 6
|
9天前
|
机器学习/深度学习 数据采集
详解Diffusion扩散模型:理论、架构与实现
【9月更文挑战第23天】扩散模型(Diffusion Models)是一类基于随机过程的深度学习模型,通过逐步加噪和去噪实现图像生成,在此领域表现优异。模型分正向扩散和反向生成两阶段:前者从真实数据加入噪声至完全噪音,后者则学习从噪声中恢复数据,经由反向过程逐步还原生成清晰图像。其主要架构采用U-net神经网络,实现过程中需数据预处理及高斯噪声添加等步骤,最终通过模型逆向扩散生成新数据,具有广泛应用前景。
|
2月前
|
机器学习/深度学习 自然语言处理 数据处理
|
2月前
|
存储 数据库 开发者
Django Web架构:全面掌握Django模型字段(下)
Django Web架构:全面掌握Django模型字段(下)
50 2

热门文章

最新文章

下一篇
无影云桌面