用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高

本文涉及的产品
文件存储 NAS,50GB 3个月
简介: 【6月更文挑战第20天】研究人员运用神经架构搜索(NAS)压缩LLM,如LLaMA2-7B,找到小而精准的子网,降低内存与计算成本,保持甚至提升性能。实验显示在多个任务上,模型大小减半,速度加快,精度不变或提升。NAS虽需大量计算资源,但结合量化技术,能有效优化大型语言模型。[论文链接](https://arxiv.org/pdf/2405.18377)**

随着大型语言模型(LLM)在自然语言处理(NLP)和复杂推理任务中的广泛应用,如何在保持或提高性能的同时减少模型的内存和计算成本,成为了一个重要的研究方向。

在这篇名为《LLAMA-NAS: Efficient Neural Architecture Search for Large Language Models》的论文中,来自Intel Labs的研究人员提出了一种基于神经架构搜索(NAS)的方法,用于优化LLM的架构,使其更小、更高效。他们以LLaMA2-7B模型为例,展示了通过NAS可以找到更小、更准确的子网络,从而在保持性能的同时减少模型的内存和计算需求。

神经架构搜索(NAS)是一种自动化设计神经网络的方法。它通过搜索大量的网络架构,并根据特定的性能指标(如准确率、运行时间等)进行评估和选择,从而找到最佳的网络架构。

在LLM中应用NAS可以带来两个方面的好处:首先,NAS可以通过搜索更小、更高效的子网络来减少模型的内存和计算需求;其次,NAS可以通过优化子网络的架构来提高模型的性能。

LLaMA2-7B模型是Meta Research开源的一个大型语言模型,它包含70亿个参数,并经过大规模的预训练。尽管LLaMA2-7B模型在许多任务上表现出色,但它的内存和计算需求也非常高,这使得它在许多实际应用场景下难以部署。

为了解决这个问题,研究人员提出了一种基于NAS的方法,用于优化LLaMA2-7B模型的架构。他们首先使用InstaTune方法对LLaMA2-7B模型进行微调,然后使用Lightweight Iterative Neural Architecture Search(LINAS)算法在微调后的模型上进行搜索。

研究人员在四个标准基准任务上进行了实验,包括AI2 Reasoning Challenge、Massive Multitask Language Understanding、TruthfulQA和WinoGrande。他们发现,通过NAS可以找到更小、更准确的子网络,从而在保持性能的同时减少模型的内存和计算需求。

例如,在AI2 Reasoning Challenge任务上,他们找到了一个比原始LLaMA2-7B模型小1.5倍的子网络,但准确率相同;在Massive Multitask Language Understanding任务上,他们找到了一个比原始模型小1.5倍、快1.3倍的子网络,但准确率提高了1.1%。

此外,他们还发现,通过将子网络进行量化(将权重从FP16转换为INT8),可以进一步减少模型的内存和计算需求,而准确率损失很小。

这篇论文展示了一种基于神经架构搜索的方法,用于优化LLM的架构,使其更小、更高效。通过在LLaMA2-7B模型上的实验,他们证明了NAS可以找到更小、更准确的子网络,从而在保持性能的同时减少模型的内存和计算需求。此外,他们还展示了量化技术可以进一步减少模型的内存和计算需求,而准确率损失很小。

然而,需要注意的是,NAS方法通常需要大量的计算资源和时间来完成搜索过程。此外,NAS方法的可解释性较差,难以理解为什么特定的子网络架构比其他架构更好。因此,在实际应用中,可能需要权衡NAS方法的好处和成本。

论文地址:https://arxiv.org/pdf/2405.18377

相关实践学习
基于ECS和NAS搭建个人网盘
本场景主要介绍如何基于ECS和NAS快速搭建个人网盘。
阿里云文件存储 NAS 使用教程
阿里云文件存储(Network Attached Storage,简称NAS)是面向阿里云ECS实例、HPC和Docker的文件存储服务,提供标准的文件访问协议,用户无需对现有应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。 产品详情:https://www.aliyun.com/product/nas
目录
打赏
0
3
3
1
392
分享
相关文章
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
51 0
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
用PyTorch从零构建 DeepSeek R1:模型架构和分步训练详解
本文详细介绍了DeepSeek R1模型的构建过程,涵盖从基础模型选型到多阶段训练流程,再到关键技术如强化学习、拒绝采样和知识蒸馏的应用。
150 3
用PyTorch从零构建 DeepSeek R1:模型架构和分步训练详解
X-R1:3090也能训7B模型!开源框架X-R1把训练成本打下来了:10美元训出企业级LLM
X-R1 是一个基于强化学习的低成本训练框架,能够加速大规模语言模型的后训练开发。仅需4块3090或4090 GPU,1小时内完成训练,成本低于10美元。
108 5
X-R1:3090也能训7B模型!开源框架X-R1把训练成本打下来了:10美元训出企业级LLM
仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略
Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。
97 6
仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略
企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南
企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南
37 12
YOLOv11改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
YOLOv11改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
112 10
YOLOv11改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
38 4
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
LLM模型添加自定义Token代码示例:为Llama 3.2模型添加思考与回答标记
本文将介绍如何为大型语言模型(LLM)添加自定义token并进行训练,使模型能够有效地利用这些新增token。以Llama 3.2模型为基础,实现了类似DeepSeek R1中think和answer标记功能的扩展方法,通过监督微调使模型学习使用这些标记进行推理过程与答案输出的区分
27 0
LLM模型添加自定义Token代码示例:为Llama 3.2模型添加思考与回答标记
LLM 联网搜索,到底是咋回事?
本文展示从零开始搭建一个本地聊天助手的过程,涵盖了模型部署、搜索逻辑设计、内容提取与整合等关键步骤,特别介绍了如何让模型具备联网搜索能力。
LLM 联网搜索,到底是咋回事?

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等