迁移学习的基本概念与应用

简介: 迁移学习是一种机器学习技术,旨在将从一个领域中学到的知识应用到另一个相关领域中,以解决目标任务的训练数据不足和模型训练时间过长的问题。它在计算机视觉、自然语言处理等领域中得到了广泛应用。

迁移学习是一种机器学习技术,旨在将从一个领域中学到的知识应用到另一个相关领域中,以解决目标任务的训练数据不足和模型训练时间过长的问题。它在计算机视觉、自然语言处理等领域中得到了广泛应用。本文将详细介绍迁移学习的基本概念、常见方法及其在实际应用中的具体案例。

提出问题

什么是迁移学习?

迁移学习有哪些常见方法?

如何在实际项目中应用迁移学习提高模型性能?

解决方案

迁移学习的基本概念

迁移学习(Transfer Learning)是指将一个领域中学到的模型参数、特征表示或知识应用到另一个领域,以提升目标任务的学习效果。传统机器学习和深度学习方法通常需要大量标注数据进行训练,而迁移学习通过利用预训练模型,可以在较少标注数据的情况下取得良好的性能。

迁移学习的常见方法

微调预训练模型(Fine-Tuning)

微调预训练模型是迁移学习中最常用的方法之一。首先,在大规模数据集(如ImageNet)上预训练一个深度神经网络,然后将其应用到目标任务中,通过在目标任务数据上继续训练模型,以适应新的任务需求。

特征提取(Feature Extraction)

特征提取方法是指利用预训练模型的特征提取能力,将其作为固定的特征提取器,然后在提取的特征基础上训练一个新的分类器或回归器。

域自适应(Domain Adaptation)

域自适应方法旨在解决源领域和目标领域分布差异较大的问题。通过学习一个共享的特征表示,使得在源领域和目标领域的特征分布尽可能一致,从而提升目标任务的性能。

在实际项目中应用迁移学习

使用微调预训练模型进行图像分类

以下示例展示了如何使用微调预训练的 ResNet 模型进行图像分类任务。

import torch

import torch.nn as nn

import torch.optim as optim

from torchvision import datasets, models, transforms

# 数据预处理

data_transforms = {

   'train': transforms.Compose([

       transforms.RandomResizedCrop(224),

       transforms.RandomHorizontalFlip(),

       transforms.ToTensor(),

       transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])

   ]),

   'val': transforms.Compose([

       transforms.Resize(256),

       transforms.CenterCrop(224),

       transforms.ToTensor(),

       transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])

   ]),

}

data_dir = 'data/hymenoptera_data'

image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x), data_transforms[x]) for x in ['train', 'val']}

dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], batch_size=32, shuffle=True, num_workers=4) for x in ['train', 'val']}

dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']}

class_names = image_datasets['train'].classes

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# 加载预训练的 ResNet 模型

model_ft = models.resnet18(pretrained=True)

# 修改最后的全连接层以适应新的分类任务

num_ftrs = model_ft.fc.in_features

model_ft.fc = nn.Linear(num_ftrs, len(class_names))

model_ft = model_ft.to(device)

# 定义损失函数和优化器

criterion = nn.CrossEntropyLoss()

optimizer_ft = optim.SGD(model_ft.parameters(), lr=0.001, momentum=0.9)

exp_lr_scheduler = optim.lr_scheduler.StepLR(optimizer_ft, step_size=7, gamma=0.1)

# 训练和评估模型

def train_model(model, criterion, optimizer, scheduler, num_epochs=25):

   for epoch in range(num_epochs):

       print(f'Epoch {epoch}/{num_epochs - 1}')

       print('-' * 10)

       for phase in ['train', 'val']:

           if phase == 'train':

               model.train()

           else:

               model.eval()

           running_loss = 0.0

           running_corrects = 0

           for inputs, labels in dataloaders[phase]:

               inputs = inputs.to(device)

               labels = labels.to(device)

               optimizer.zero_grad()

               with torch.set_grad_enabled(phase == 'train'):

                   outputs = model(inputs)

                   _, preds = torch.max(outputs, 1)

                   loss = criterion(outputs, labels)

                   if phase == 'train':

                       loss.backward()

                       optimizer.step()

               running_loss += loss.item() * inputs.size(0)

               running_corrects += torch.sum(preds == labels.data)

           if phase == 'train':

               scheduler.step()

           epoch_loss = running_loss / dataset_sizes[phase]

           epoch_acc = running_corrects.double() / dataset_sizes[phase]

           print(f'{phase} Loss: {epoch_loss:.4f} Acc: {epoch_acc:.4f}')

       print()

   return model

model_ft = train_model(model_ft, criterion, optimizer_ft, exp_lr_scheduler, num_epochs=25)

 

使用特征提取进行文本分类

以下示例展示了如何使用特征提取方法将预训练的 BERT 模型应用于文本分类任务。

from transformers import BertTokenizer, BertModel

import torch

import torch.nn as nn

import torch.optim as optim

from torch.utils.data import DataLoader, Dataset

class TextDataset(Dataset):

   def __init__(self, texts, labels, tokenizer, max_len):

       self.texts = texts

       self.labels = labels

       self.tokenizer = tokenizer

       self.max_len = max_len

   def __len__(self):

       return len(self.texts)

   def __getitem__(self, item):

       text = self.texts[item]

       label = self.labels[item]

       encoding = self.tokenizer.encode_plus(

           text,

           add_special_tokens=True,

           max_length=self.max_len,

           return_token_type_ids=False,

           padding='max_length',

           truncation=True,

           return_attention_mask=True,

           return_tensors='pt',

       )

       return {

           'text': text,

           'input_ids': encoding['input_ids'].flatten(),

           'attention_mask': encoding['attention_mask'].flatten(),

           'label': torch.tensor(label, dtype=torch.long)

       }

class TextClassifier(nn.Module):

   def __init__(self, n_classes):

       super(TextClassifier, self).__init__()

       self.bert = BertModel.from_pretrained('bert-base-uncased')

       self.drop = nn.Dropout(p=0.3)

       self.out = nn.Linear(self.bert.config.hidden_size, n_classes)

   def forward(self, input_ids, attention_mask):

       pooled_output = self.bert(

           input_ids=input_ids,

           attention_mask=attention_mask

       )[1]

       output = self.drop(pooled_output)

       return self.out(output)

# 数据准备

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

texts = ["example text 1", "example text 2"]

labels = [0, 1]

dataset = TextDataset(texts, labels, tokenizer, max_len=128)

dataloader = DataLoader(dataset, batch_size=2)

# 初始化模型

model = TextClassifier(n_classes=2)

model = model.to(device)

# 定义损失函数和优化器

criterion = nn.CrossEntropyLoss()

optimizer = optim.Adam(model.parameters(), lr=2e-5)

# 训练模型

for epoch in range(3):

   model.train()

   for batch in dataloader:

       input_ids = batch['input_ids'].to(device)

       attention_mask = batch['attention_mask'].to(device)

       labels = batch['label'].to(device)

       outputs = model(input_ids=input_ids, attention_mask=attention_mask)

       loss = criterion(outputs, labels)

       optimizer.zero_grad()

       loss.backward()

       optimizer.step()

       print(f'Epoch {epoch}, Loss: {loss.item()}')

通过上述方法,可以充分利用迁移学习的优势,在较少数据和计算资源的情况下,快速构建和优化深度学习模型。迁移学习在计算机视觉、自然语言处理等领域中具有广泛的应用前景,能够帮助开发者有效提升模型性能,实现更复杂的任务。

目录
打赏
0
2
2
0
394
分享
相关文章
面向长文本的多模型协作摘要架构:多LLM文本摘要方法
多LLM摘要框架通过生成和评估两个步骤处理长文档,支持集中式和分散式两种策略。每个LLM独立生成文本摘要,集中式方法由单一LLM评估并选择最佳摘要,而分散式方法则由多个LLM共同评估,达成共识。论文提出两阶段流程:先分块摘要,再汇总生成最终摘要。实验结果显示,多LLM框架显著优于单LLM基准,性能提升最高达3倍,且仅需少量LLM和一轮生成评估即可获得显著效果。
209 10
面向长文本的多模型协作摘要架构:多LLM文本摘要方法
AI在医疗:深度学习在医学影像诊断中的最新进展
【10月更文挑战第26天】近年来,深度学习技术在医学影像诊断中的应用日益广泛,通过训练大量医学影像数据,实现对疾病的准确诊断。例如,卷积神经网络(CNN)已成功用于识别肺癌、乳腺癌等疾病。深度学习不仅提高了诊断准确性,还缩短了诊断时间,提升了患者体验。然而,数据隐私、数据共享和算法透明性等问题仍需解决。未来,AI将在医学影像诊断中发挥更大作用,成为医生的得力助手。
548 0
R语言多图合成:优雅地在一个画布上展示多个图形
【8月更文挑战第30天】R语言提供了多种方法来实现多图合成,从基础的`par()`函数到高级的`gridExtra`、`ggplot2`和`cowplot`包,每种方法都有其独特的优势和应用场景。通过掌握这些技术,你可以根据实际需求灵活地组合图形,从而更高效地展示和解读数据。希望本文能为你提供一些有益的参考和启示。
从数据存储到分析:构建高效开源数据湖仓解决方案
今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。
生成对抗网络的应用有哪些
【10月更文挑战第14天】生成对抗网络的应用有哪些
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
1809 10
Pytorch迁移学习使用Resnet50进行模型训练预测猫狗二分类
深度学习在图像分类、目标检测、语音识别等领域取得了重大突破,但是随着网络层数的增加,梯度消失和梯度爆炸问题逐渐凸显。随着层数的增加,梯度信息在反向传播过程中逐渐变小,导致网络难以收敛。同时,梯度爆炸问题也会导致网络的参数更新过大,无法正常收敛。 为了解决这些问题,ResNet提出了一个创新的思路:引入残差块(Residual Block)。残差块的设计允许网络学习残差映射,从而减轻了梯度消失问题,使得网络更容易训练。
1539 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问