利用 PyTorch Lightning 搭建一个文本分类模型

简介: 利用 PyTorch Lightning 搭建一个文本分类模型

引言

这篇博文中,将逐步介绍如何使用 PyTorch Lightning 来构建和部署一个基础的文本分类模型。该项目借助了 PyTorch 生态中的多个强大工具,例如 torch、pytorch_lightning 以及 Hugging Face 提供的 transformers,从而构建了一个强大且可扩展的机器学习流程。

代码库包含四个核心的 Python 脚本:

  • data.py:负责数据的加载和预处理工作。
  • model.py:构建模型的结构。
  • train.py:包含了训练循环和训练的配置。
  • inference.py:支持使用训练好的模型进行推断。

下面详细解析每个部分,以便理解它们是如何协同作用,以实现文本分类的高效工作流程。

1. 数据加载与预处理

在 data.py 文件中,DataModule 类被设计用来处理数据加载和预处理的所有环节。它利用了 PyTorch Lightning 的 LightningDataModule,这有助于保持数据处理任务的模块化和可复用性。

class DataModule(pl.LightningDataModule):
    def __init__(self, model_name="google/bert_uncased_L-2_H-128_A-2", batch_size=32):
        super().__init__()
        self.batch_size = batch_size
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)

这个类在初始化时需要指定模型名称和批量大小,并从 Hugging Face 的 Transformers 库加载一个分词器。prepare_data() 函数会从 GLUE 基准测试套件中下载 CoLA 数据集,这个数据集经常用来评估自然语言理解(NLU)模型的性能。

setup() 函数负责对文本数据进行分词处理,并创建用于训练和验证的 PyTorch DataLoader 对象:

def setup(self, stage=None):
    if stage == "fit" or stage is None:
        self.train_data = self.train_data.map(self.tokenize_data, batched=True)
        self.train_data.set_format(type="torch", columns=["input_ids", "attention_mask", "label"])
        self.val_data = self.val_data.map(self.tokenize_data, batched=True)
        self.val_data.set_format(type="torch", columns=["input_ids", "attention_mask", "label"])

2. 模型架构

在 model.py 文件中定义的 ColaModel 类继承自 PyTorch Lightning 的 LightningModule。该模型采用 BERT(一种双向编码器表示,源自 Transformers)的简化版本作为文本表示的核心模型。

class ColaModel(pl.LightningModule):
    def __init__(self, model_name="google/bert_uncased_L-2_H-128_A-2", lr=1e-2):
        super(ColaModel, self).__init__()
        self.bert = AutoModel.from_pretrained(model_name)
        self.W = nn.Linear(self.bert.config.hidden_size, 2)

模型在前向传播过程中提取 BERT 的最终隐藏状态,并通过一个线性层来生成用于二分类的对数几率(logits):

def forward(self, input_ids, attention_mask):
    outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
    h_cls = outputs.last_hidden_state[:, 0]
    logits = self.W(h_cls)
    return logits

另外,training_step()validation_step() 函数分别负责处理训练和验证的逻辑,并记录诸如损失和准确率等关键指标。

3. Training Loop

train.py 脚本利用 PyTorch Lightning 的 Trainer 类来控制训练过程。它还包含了模型检查点和提前停止的回调机制,以防止模型过拟合。

checkpoint_callback = ModelCheckpoint(dirpath="./models", monitor="val_loss", mode="min")
early_stopping_callback = EarlyStopping(monitor="val_loss", patience=3, verbose=True, mode="min")

训练过程设定了最大周期数,并在可能的情况下利用 GPU 进行加速:

trainer = pl.Trainer(
    default_root_dir="logs",
    gpus=(1 if torch.cuda.is_available() else 0),
    max_epochs=5,
    fast_dev_run=False,
    logger=pl.loggers.TensorBoardLogger("logs/", name="cola", version=1),
    callbacks=[checkpoint_callback, early_stopping_callback],
)
trainer.fit(cola_model, cola_data)

这样的配置不仅让训练变得更加简便,还保证了模型能够定期保存并对其性能进行监控。

4. 推理

训练结束后,将利用模型来进行预测。inference.py 脚本中定义了一个名为 ColaPredictor 的类,该类负责加载经过训练的模型检查点,并提供了一个用于生成预测的方法:

class ColaPredictor:
    def __init__(self, model_path):
        self.model_path = model_path
        self.model = ColaModel.load_from_checkpoint(model_path)
        self.model.eval()
        self.model.freeze()

Predict() 方法接受文本输入,使用分词器对其进行处理,并返回模型的预测:

def predict(self, text):
    inference_sample = {
   "sentence": text}
    processed = self.processor.tokenize_data(inference_sample)
    logits = self.model(
        torch.tensor([processed["input_ids"]]),
        torch.tensor([processed["attention_mask"]]),
    )
    scores = self.softmax(logits[0]).tolist()
    predictions = [{
   "label": label, "score": score} for score, label in zip(scores, self.labels)]
    return predictions

总结

本项目展示了如何采用 PyTorch Lightning 进行构建、训练和部署文本分类模型的系统化方法。尽情地尝试代码,调整参数,并试用不同的数据集或模型吧。编程愉快!

相关文章
|
机器学习/深度学习 JavaScript PyTorch
9个主流GAN损失函数的数学原理和Pytorch代码实现:从经典模型到现代变体
生成对抗网络(GAN)的训练效果高度依赖于损失函数的选择。本文介绍了经典GAN损失函数理论,并用PyTorch实现多种变体,包括原始GAN、LS-GAN、WGAN及WGAN-GP等。通过分析其原理与优劣,如LS-GAN提升训练稳定性、WGAN-GP改善图像质量,展示了不同场景下损失函数的设计思路。代码实现覆盖生成器与判别器的核心逻辑,为实际应用提供了重要参考。未来可探索组合优化与自适应设计以提升性能。
1183 7
9个主流GAN损失函数的数学原理和Pytorch代码实现:从经典模型到现代变体
|
9月前
|
机器学习/深度学习 存储 PyTorch
Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
Neural ODE将神经网络与微分方程结合,用连续思维建模数据演化,突破传统离散层的限制,实现自适应深度与高效连续学习。
800 3
Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
|
8月前
|
边缘计算 人工智能 PyTorch
130_知识蒸馏技术:温度参数与损失函数设计 - 教师-学生模型的优化策略与PyTorch实现
随着大型语言模型(LLM)的规模不断增长,部署这些模型面临着巨大的计算和资源挑战。以DeepSeek-R1为例,其671B参数的规模即使经过INT4量化后,仍需要至少6张高端GPU才能运行,这对于大多数中小型企业和研究机构来说成本过高。知识蒸馏作为一种有效的模型压缩技术,通过将大型教师模型的知识迁移到小型学生模型中,在显著降低模型复杂度的同时保留核心性能,成为解决这一问题的关键技术之一。
665 6
|
10月前
|
PyTorch 算法框架/工具 异构计算
PyTorch 2.0性能优化实战:4种常见代码错误严重拖慢模型
我们将深入探讨图中断(graph breaks)和多图问题对性能的负面影响,并分析PyTorch模型开发中应当避免的常见错误模式。
535 9
|
12月前
|
机器学习/深度学习 存储 PyTorch
PyTorch + MLFlow 实战:从零构建可追踪的深度学习模型训练系统
本文通过使用 Kaggle 数据集训练情感分析模型的实例,详细演示了如何将 PyTorch 与 MLFlow 进行深度集成,实现完整的实验跟踪、模型记录和结果可复现性管理。文章将系统性地介绍训练代码的核心组件,展示指标和工件的记录方法,并提供 MLFlow UI 的详细界面截图。
521 2
PyTorch + MLFlow 实战:从零构建可追踪的深度学习模型训练系统
|
12月前
|
机器学习/深度学习 PyTorch 算法框架/工具
提升模型泛化能力:PyTorch的L1、L2、ElasticNet正则化技术深度解析与代码实现
本文将深入探讨L1、L2和ElasticNet正则化技术,重点关注其在PyTorch框架中的具体实现。关于这些技术的理论基础,建议读者参考相关理论文献以获得更深入的理解。
383 4
提升模型泛化能力:PyTorch的L1、L2、ElasticNet正则化技术深度解析与代码实现
|
算法 PyTorch 算法框架/工具
Pytorch学习笔记(九):Pytorch模型的FLOPs、模型参数量等信息输出(torchstat、thop、ptflops、torchsummary)
本文介绍了如何使用torchstat、thop、ptflops和torchsummary等工具来计算Pytorch模型的FLOPs、模型参数量等信息。
3266 2
|
机器学习/深度学习 数据可视化 机器人
比扩散策略更高效的生成模型:流匹配的理论基础与Pytorch代码实现
扩散模型和流匹配是生成高分辨率数据(如图像和机器人轨迹)的先进技术。扩散模型通过逐步去噪生成数据,其代表应用Stable Diffusion已扩展至机器人学领域形成“扩散策略”。流匹配作为更通用的方法,通过学习时间依赖的速度场将噪声转化为目标分布,适用于图像生成和机器人轨迹生成,且通常以较少资源实现更快生成。 本文深入解析流匹配在图像生成中的应用,核心思想是将图像视为随机变量的实现,并通过速度场将源分布转换为目标分布。文中提供了一维模型训练实例,展示了如何用神经网络学习速度场,以及使用最大均值差异(MMD)改进训练效果。与扩散模型相比,流匹配结构简单,资源需求低,适合多模态分布生成。
1357 13
比扩散策略更高效的生成模型:流匹配的理论基础与Pytorch代码实现

热门文章

最新文章

推荐镜像

更多