介绍一个大语言模型的微调框架Swift | AIGC

简介: 介绍一个大语言模型的微调框架Swift 【7月更文挑战第4天】

介绍一个大语言模型的微调框架Swift

一、什么微调finetune

在大语言模型中,微调(Fine-tuning)是一种重要的技术,用于提升模型在特定任务或领域上的性能。微调(Fine-tuning)是指在已经预训练好的大语言模型基础上,使用特定领域或任务的数据集进行进一步的训练,使模型能够更好地适应并完成该领域或任务的具体要求。预训练的大语言模型通常在大规模通用语料库上进行训练,学习了语言的普遍规律和特征,但对于特定领域或任务的专业知识和特定需求,往往需要通过微调来优化。

二、为什么需要微调

  1. 任务特定性能提升:预训练语言模型虽然具备强大的语言理解和生成能力,但在特定任务上的表现可能并不理想。通过微调,模型可以进一步学习任务相关的特征和模式,从而提高性能。
  2. 领域适应性:不同领域的数据集具有不同的术语、结构和语义特点。通过在该领域的有标签数据上进行微调,可以使模型更好地适应该领域的特殊需求,提高在该领域任务上的效果。
  3. 数据稀缺性:某些特定任务可能面临数据稀缺的问题,难以获得大规模的标注数据。通过微调,可以在有限的数据上训练模型,使其在数据有限的情况下也能取得较好的性能。
  4. 防止过拟合:在监督微调过程中,通过使用有标签数据进行训练,可以减少模型在特定任务上的过拟合风险,提高模型的泛化能力。
  5. 成本效益:与从头开始训练一个全新的模型相比,微调可以节省大量的时间和资源,同时快速迁移到新的任务上。

三、Swift

yyq-2024-07-08-22-55-40.png

Swift是一个提供LLM模型轻量级训练和推理的开源框架。Swift提供的主要能力是efficient tuners,tuners是运行时动态加载到模型上的额外结构,在训练时将原模型的参数冻结,只训练tuner部分,这样可以达到快速训练、降低显存使用的目的。比如,最常用的tuner是LoRA。

总之,在这个框架中提供了以下特性:

具备SOTA特性的Efficient Tuners:用于结合大模型实现轻量级(在商业级显卡上,如RTX3080、RTX3090、RTX4090等)训练和推理,并取得较好效果

使用ModelScope Hub的Trainer:基于transformers trainer提供,支持LLM模型的训练,并支持将训练后的模型上传到ModelScope Hub中
可运行的模型Examples:针对热门大模型提供的训练脚本和推理脚本,并针对热门开源数据集提供了预处理逻辑,可直接运行使用

四、快速开始

安装

# 全量能力
pip install ms-swift[all] -U
# 仅使用LLM
pip install ms-swift[llm] -U
# 仅使用AIGC
pip install ms-swift[aigc] -U
# 仅使用adapters
pip install ms-swift -U

SWIFT库提供了LLM&AIGC模型的训练推理脚手架,支持LLaMA、QWen、ChatGLM、Stable Diffusion等多种模型的直接训练和推理,并且集成了SWIFT库提供的tuners, 开发者可以直接使用。它们的位置在:https://github.com/modelscope/swift/tree/main/examples/pytorch/llm

如果需要在自定义的训练流程中使用tuners,可以参考下面的代码。下面的代码使用LoRA在分类任务上训练了bert-base-uncased模型:

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'

from modelscope import AutoModelForSequenceClassification, AutoTokenizer, MsDataset
from transformers import default_data_collator

from swift import Trainer, LoRAConfig, Swift, TrainingArguments


model = AutoModelForSequenceClassification.from_pretrained(
            'AI-ModelScope/bert-base-uncased', revision='v1.0.0')
tokenizer = AutoTokenizer.from_pretrained(
    'AI-ModelScope/bert-base-uncased', revision='v1.0.0')
lora_config = LoRAConfig(target_modules=['query', 'key', 'value'])
model = Swift.prepare_model(model, config=lora_config)

train_dataset = MsDataset.load('clue', subset_name='afqmc', split='train').to_hf_dataset().select(range(100))
val_dataset = MsDataset.load('clue', subset_name='afqmc', split='validation').to_hf_dataset().select(range(100))


def tokenize_function(examples):
    return tokenizer(examples["sentence1"], examples["sentence2"],
    padding="max_length", truncation=True, max_length=128)


train_dataset = train_dataset.map(tokenize_function)
val_dataset = val_dataset.map(tokenize_function)

arguments = TrainingArguments(
    output_dir='./outputs',
    per_device_train_batch_size=16,
)

trainer = Trainer(model, arguments, train_dataset=train_dataset,
                    eval_dataset=val_dataset,
                    data_collator=default_data_collator,)

trainer.train()

在上面的例子中,我们使用了bert-base-uncased作为基模型,将LoRA模块patch到了['query', 'key', 'value']三个Linear上,进行了一次训练。

训练结束后可以看到outputs文件夹,它的文件结构如下:

outputs

​ |-- checkpoint-xx

​ |-- configuration.json

​ |-- default

​ |-- adapter_config.json

​ |-- adapter_model.bin

​ |-- ...

可以使用该文件夹执行推理:

from modelscope import AutoModelForSequenceClassification, AutoTokenizer
from swift import Trainer, LoRAConfig, Swift


model = AutoModelForSequenceClassification.from_pretrained(
            'AI-ModelScope/bert-base-uncased', revision='v1.0.0')
tokenizer = AutoTokenizer.from_pretrained(
    'AI-ModelScope/bert-base-uncased', revision='v1.0.0')
lora_config = LoRAConfig(target_modules=['query', 'key', 'value'])
model = Swift.from_pretrained(model, model_id='./outputs/checkpoint-21')

print(model(**tokenizer('this is a test', return_tensors='pt')))
目录
相关文章
|
29天前
|
JSON 数据处理 Swift
Swift 中的网络编程,主要介绍了 URLSession 和 Alamofire 两大框架的特点、用法及实际应用
本文深入探讨了 Swift 中的网络编程,主要介绍了 URLSession 和 Alamofire 两大框架的特点、用法及实际应用。URLSession 由苹果提供,支持底层网络控制;Alamofire 则是在 URLSession 基础上增加了更简洁的接口和功能扩展。文章通过具体案例对比了两者的使用方法,帮助开发者根据需求选择合适的网络编程工具。
29 3
|
4月前
|
人工智能 自然语言处理 Swift
"轻量级微调推理框架SWIFT:大模型时代的速度革命,让你秒变AI部署高手!"
【8月更文挑战第17天】随着AI技术的发展,大模型如GPT-3和BERT引领风潮,但其部署与推理速度面临挑战。为此,魔搭社区推出了SWIFT(Simple Weight-Integrated Fine-Tuning)框架,它采用轻量级微调技术,实现模型参数压缩与加速,确保大模型能在移动端和边缘设备上高效运行。SWIFT具备四大特点:创新微调方法减少训练参数;内置优化策略提高推理速度;跨平台支持便于部署;兼容主流预训练模型。通过示例可见,从加载预训练模型到模型的微调、评估及导出,SWIFT简化了工作流程,降低了大模型的应用门槛,促进了AI技术的实际应用。
517 3
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC的伦理考量与法律框架
【7月更文第27天】随着人工智能技术的发展,AI生成的内容(AIGC)已经广泛应用于各种领域,包括但不限于新闻写作、图像生成、视频制作等。这些技术的进步带来了巨大的经济效益和社会价值,但同时也引发了一系列伦理和法律问题。本文将探讨AIGC技术的关键组成部分,分析其伦理考量,并提出相应的法律框架建议。
114 7
|
5月前
|
自然语言处理
AIGC使用问题之GPT-1如何优化目标函数,如何做模型微调
AIGC使用问题之GPT-1如何优化目标函数,如何做模型微调
|
5月前
|
监控 算法 物联网
LLaMA-Factory:大语言模型微调框架 | AIGC
LLaMA-Factory 是一个国内北航开源的低代码大模型训练框架,专为大型语言模型(LLMs)的微调而设计【7月更文挑战第5天】
503 9
|
4月前
|
机器学习/深度学习 自然语言处理 索引
AIGC:LLM大型语言模型是怎么交流的? ———分词
AIGC:LLM大型语言模型是怎么交流的? ———分词
|
5月前
|
机器学习/深度学习 自然语言处理
「AIGC」如何理解大语言模型
Transformer模型,2017年提出,以自注意力为核心,用于序列到序列任务,如机器翻译。它包含多头注意力实现并行处理,提高效率。词汇切分(Tokenization)将文本拆分成子词,增强模型灵活性。嵌入将词汇映射到向量,捕获语义,降低维度。Attention机制允许模型动态分配注意力,有效处理长距离依赖,改善文本理解。
94 0
|
5月前
|
存储 自然语言处理 API
通义万相AIGC技术Web服务体验评测
随着人工智能技术的不断进步,图像生成技术已成为创意产业的一大助力。通义万相AIGC技术,作为阿里云推出的一项先进技术,旨在通过文本到图像、涂鸦转换、人像风格重塑及人物写真创建等功能,加速艺术家和设计师的创作流程。本文将详细评测这一技术的实际应用体验。
200 4
|
1月前
|
人工智能 自然语言处理 数据可视化
什么是AIGC?如何使用AIGC技术辅助办公?
2分钟了解AIGC技术及其如何提高日常办公效率!
76 4
什么是AIGC?如何使用AIGC技术辅助办公?
|
2月前
|
人工智能 自然语言处理 数据挖掘
Claude 3.5:一场AI技术的惊艳飞跃 | AIGC
在这个科技日新月异的时代,人工智能(AI)的进步令人惊叹。博主体验了Claude 3.5 Sonnet的最新功能,对其卓越的性能、强大的内容创作与理解能力、创新的Artifacts功能、视觉理解与文本转录能力、革命性的“computeruse”功能、广泛的应用场景与兼容性以及成本效益和易用性深感震撼。这篇介绍将带你一窥其技术前沿的魅力。【10月更文挑战第12天】
86 1
下一篇
DataWorks