人工智能-大语言模型-微调技术-LoRA及背后原理简介

简介: 人工智能-大语言模型-微调技术-LoRA及背后原理简介

1. 《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》

LORA: 大型语言模型的低秩适应

摘要:

随着大规模预训练模型的发展,全参数微调变得越来越不可行。本文提出了一种名为LoRA(低秩适应)的方法,通过在Transformer架构的每一层注入可训练的低秩分解矩阵,大幅减少了下游任务的可训练参数数量。与使用Adam微调GPT-3 175B相比,LoRA可以将可训练参数数量减少10000倍,GPU内存需求减少3倍。

创新点:

  • 提出了LoRA方法,通过在预训练模型中注入低秩矩阵来适应下游任务。
  • 与全参数微调相比,LoRA在保持模型质量的同时,大幅减少了参数数量和计算资源需求。

算法模型:

  • 在预训练的权重矩阵中注入低秩分解矩阵,通过优化这些低秩矩阵来适应新任务。
  • 保持预训练权重不变,只训练注入的低秩矩阵。

数学模型 :

h = W 0 x + Δ W x = W 0 x + B A x h = W_{0}x + \Delta W x = W_{0}x + BAxh=W0x+ΔWx=W0x+BAx

这里 W 0 , Δ W W_{0}, \Delta WW0,ΔW是同纬度的超大矩阵,通常10B以上的模型参数量,但是 B , A B, AB,A都是低秩,维度远远小于原始模型参数矩阵。

实验效果:

  • 在RoBERTa、DeBERTa、GPT-2和GPT-3等模型上进行实验,LoRA在参数数量大幅减少的情况下,性能与全参数微调相当或更好。
  • 在GPT-3 175B上,LoRA在WikiSQL、MNLI和SAMSum等任务上的表现优于或接近全参数微调。

推荐阅读指数

★★★★★

推荐理由:

这篇文章提出了一种高效的大型语言模型适应方法,对于需要在资源有限的情况下部署大型模型的应用场景具有重要意义。LoRA方法的提出,为大型模型的实用化和优化提供了新的思路和工具。

2. 《MEASURING THE INTRINSIC DIMENSION OF OBJECTIVE LANDSCAPES》

测量目标景观的内在维度

摘要

本文探讨了神经网络参数数量与问题难度之间的关系。作者通过在随机子空间中训练网络,逐渐增加子空间的维度,来测量目标景观的内在维度。研究表明,许多问题的内在维度比预期的要小,且对于给定数据集,不同模型尺寸的内在维度变化不大。这表明一旦参数空间足够大以解决问题,额外的参数直接增加了解的流形的维度。此外,文章还提出了一种简单的技术来获得解决方案的最小描述长度的上界,并提供了一种压缩网络的方法。

创新点

  • 提出了内在维度的概念,用于量化问题难度。
  • 开发了一种在随机子空间中训练网络的方法来测量内在维度。
  • 展示了即使是大型网络,也只需相对较少的参数即可达到接近最优的性能。

算法模型

  • 网络不是在其原始参数空间中训练,而是在一个较小的、随机定向的子空间中训练。
  • 通过逐渐增加子空间的维度,记录解决方案首次出现的维度,定义为目标景观的内在维度。

实验效果

  • 在MNIST、CIFAR-10、ImageNet等数据集上的实验表明,许多问题的内在维度远小于参数总数。
  • 例如,在MNIST数据集上,即使是一个全连接网络,也只需要大约750个参数即可达到接近最优模型90%的性能。

推荐阅读指数

★★★★☆

推荐理由

这篇文章为理解神经网络的优化问题提供了新的视角,特别是在参数数量与模型性能之间的关系方面。它的方法论和实验结果对于神经网络的设计和训练具有重要的指导意义。

3.《INTRINSIC DIMENSIONALITY EXPLAINS THE EFFECTIVENESS OF LANGUAGE MODEL FINE-TUNING》

内在维度性解释了语言模型微调的有效性

摘要

尽管预训练的语言模型可以通过微调来达到各种语言理解任务的最新结果,但这一过程的动态,特别是在数据量较少的情况下,尚不清楚。本文通过内在维度的视角分析微调过程,提供了理论和实证直觉来解释这一现象。研究表明,常见的预训练模型具有非常低的内在维度,即存在一个低维重参数化,其微调效果与完整参数空间一样有效。

创新点

  • 将内在维度的概念应用于语言模型的微调过程。
  • 通过实证研究,展示了预训练模型在微调时所需的参数数量远少于模型总参数数。

算法模型

  • 使用随机投影将模型参数映射到低维空间,并在该空间中进行优化。
  • 通过调整低维空间中的参数,间接优化高维空间中的模型参数。

实验效果

  • 在MRPC数据集上,仅通过优化200个可训练参数,即可使RoBERTa模型达到接近完整参数性能的90%。
  • 预训练过程隐式地降低了后续微调任务的内在维度。

推荐阅读指数

★★★★☆

推荐理由

这篇文章为理解大型预训练语言模型的微调过程提供了新的理论支持,特别是在参数效率和模型泛化能力方面。其研究结果对于优化语言模型的训练和应用具有重要的实际意义。

相关文章
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能技术的探讨
人工智能的概念,人工智能的发展,人工智能的各种学派,人工智能的应用领域
340 4
|
7月前
|
人工智能 语音技术
推动人工智能技术和产业变革,啥是核心驱动力?生成式人工智能认证(GAI认证)揭秘答案
人工智能(AI)正以前所未有的速度重塑世界,其发展离不开领军人才与创新生态的支持。文章探讨了AI领军人才的核心特质及培养路径,强调构建产学研深度融合的创新生态,并通过教育变革与GAI认证提升全民AI素养,为技术与产业变革提供持续动力。这不仅是推动社会高质量发展的关键,也为个人与企业带来了更多机遇。
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
生成式人工智能的价值回归:重塑技术、社会与个体的发展轨迹
生成式人工智能(Generative AI)正以前所未有的速度重塑社会面貌。它从单一决策工具转变为创造性生产力引擎,推动知识生产、艺术创作与科学研究的发展。同时,其广泛应用引发社会生产力和生产关系的深刻变革,带来就业结构变化与社会公平挑战。此外,生成式AI还面临伦理法律问题,如透明性、责任归属及知识产权等。培生公司推出的生成式AI认证项目,旨在培养专业人才,促进技术与人文融合,助力技术可持续发展。总体而言,生成式AI正从工具属性向赋能属性升华,成为推动社会进步的新引擎。
|
7月前
|
人工智能 自然语言处理 API
MCP与A2A协议比较:人工智能系统互联与协作的技术基础架构
本文深入解析了人工智能领域的两项关键基础设施协议:模型上下文协议(MCP)与代理对代理协议(A2A)。MCP由Anthropic开发,专注于标准化AI模型与外部工具和数据源的连接,降低系统集成复杂度;A2A由Google发布,旨在实现不同AI代理间的跨平台协作。两者虽有相似之处,但在设计目标与应用场景上互为补充。文章通过具体示例分析了两种协议的技术差异及适用场景,并探讨了其在企业工作流自动化、医疗信息系统和软件工程中的应用。最后,文章强调了整合MCP与A2A构建协同AI系统架构的重要性,为未来AI技术生态系统的演进提供了方向。
1095 62
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
8月前
|
人工智能 算法 搜索推荐
人工智能技术对未来就业的影响
人工智能大模型技术正在重塑全球就业市场,但其核心是"增强"而非"取代"人类工作。虽然AI在数据处理、模式识别等标准化任务上表现出色,但在创造力、情感交互和复杂决策等人类专属领域仍存在明显局限。各行业呈现差异化转型:IT领域人机协同编程成为常态,金融业基础分析岗位减少但复合型人才需求激增,医疗行业AI辅助诊断普及但治疗决策仍依赖医生,制造业工人转向技术管理,创意产业中人类聚焦高端设计。未来就业市场将形成人机协作新生态,要求个人培养创造力、情商等AI难以替代的核心能力,企业重构工作流程。AI时代将推动人类向更高价值的认知活动跃升,实现人机优势互补的协同发展。
1009 2
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解人工智能中的深度学习技术及其最新进展
深入理解人工智能中的深度学习技术及其最新进展
1318 33
|
11月前
|
机器学习/深度学习 人工智能 算法
人工智能平台年度技术趋势
阿里云智能集团研究员林伟在年度技术趋势演讲中,分享了AI平台的五大方面进展。首先,他介绍了大规模语言模型(LLM)训练中的挑战与解决方案,包括高效故障诊断和快速恢复机制。其次,探讨了AI应用和服务的普及化,强调通过优化调度降低成本,使AI真正惠及大众。第三,提出了GreenAI理念,旨在提高AI工程效率,减少能源消耗。第四,讨论了企业级能力,确保数据和模型的安全性,并推出硬件到软件的全面安全方案。最后,介绍了整合多项核心技术的Pai Prime框架,展示了阿里云在自主可控AI核心框架下的整体布局和发展方向。
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
深入探讨人工智能中的深度学习技术##
在本文中,我们将深入探讨深度学习技术的原理、应用以及未来的发展趋势。通过分析神经网络的基本结构和工作原理,揭示深度学习如何在图像识别、自然语言处理等领域取得突破性进展。同时,我们还将讨论当前面临的挑战和未来的研究方向,为读者提供全面的技术洞察。 ##
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与未来医疗:AI技术在疾病诊断中的应用前景####
本文探讨了人工智能(AI)在现代医疗领域,尤其是疾病诊断方面的应用潜力和前景。随着技术的不断进步,AI正逐渐改变传统医疗模式,提高诊断的准确性和效率。通过分析当前的技术趋势、具体案例以及面临的挑战,本文旨在为读者提供一个全面的视角,理解AI如何塑造未来医疗的面貌。 ####

热门文章

最新文章