动手实践:使用Hugging Face Transformers库构建文本分类模型

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 【10月更文挑战第29天】作为一名自然语言处理(NLP)爱好者,我一直对如何利用最先进的技术解决实际问题充满兴趣。Hugging Face 的 Transformers 库无疑是目前最流行的 NLP 工具之一,它提供了大量的预训练模型和便捷的接口,使得构建和训练文本分类模型变得更加简单高效。本文将通过具体的实例教程,指导读者如何使用 Hugging Face 的 Transformers 库快速构建和训练一个文本分类模型,包括环境搭建、数据预处理、模型选择与训练等步骤。

作为一名自然语言处理(NLP)爱好者,我一直对如何利用最先进的技术解决实际问题充满兴趣。Hugging Face 的 Transformers 库无疑是目前最流行的 NLP 工具之一,它提供了大量的预训练模型和便捷的接口,使得构建和训练文本分类模型变得更加简单高效。本文将通过具体的实例教程,指导读者如何使用 Hugging Face 的 Transformers 库快速构建和训练一个文本分类模型,包括环境搭建、数据预处理、模型选择与训练等步骤。
1111.png

一、环境搭建

首先,我们需要安装必要的库和工具。确保你的环境中已经安装了 Python 和 pip。接下来,安装 Hugging Face 的 Transformers 库和其他相关库。

pip install transformers datasets torch

二、数据准备

为了演示文本分类模型的构建过程,我们将使用一个经典的文本分类数据集——IMDB 电影评论数据集。该数据集包含 50,000 条电影评论,每条评论都有一个标签,表示评论的情感是正面还是负面。

  1. 下载数据集
    使用 datasets 库下载 IMDB 数据集。

    from datasets import load_dataset
    
    # 加载IMDB数据集
    dataset = load_dataset('imdb')
    
  2. 查看数据集结构
    查看数据集的基本结构,了解数据的分布情况。

    print(dataset)
    

    输出示例:

    DatasetDict({
        train: Dataset({
            features: ['text', 'label'],
            num_rows: 25000
        })
        test: Dataset({
            features: ['text', 'label'],
            num_rows: 25000
        })
    })
    

三、数据预处理

数据预处理是构建模型的重要步骤,包括文本清洗、分词、向量化等。

  1. 加载预训练的分词器
    使用 Hugging Face 提供的预训练分词器对文本进行分词。

    from transformers import AutoTokenizer
    
    # 选择一个预训练的模型,例如BERT
    model_name = 'bert-base-uncased'
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
  2. 分词和编码
    使用分词器对训练和测试数据进行分词和编码。

    def tokenize_function(examples):
        return tokenizer(examples['text'], padding='max_length', truncation=True)
    
    tokenized_datasets = dataset.map(tokenize_function, batched=True)
    
  3. 准备 DataLoader
    将处理后的数据转换为 PyTorch 的 DataLoader,以便于训练过程中使用。

    from torch.utils.data import DataLoader
    from transformers import DataCollatorWithPadding
    
    data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
    
    train_dataloader = DataLoader(
        tokenized_datasets['train'], shuffle=True, batch_size=8, collate_fn=data_collator
    )
    eval_dataloader = DataLoader(
        tokenized_datasets['test'], batch_size=8, collate_fn=data_collator
    )
    

四、模型选择与训练

  1. 加载预训练模型
    选择一个预训练的 BERT 模型,并将其用于文本分类任务。

    from transformers import AutoModelForSequenceClassification
    
    model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
    
  2. 配置训练参数
    设置优化器、学习率调度器等训练参数。

    from transformers import AdamW, get_linear_schedule_with_warmup
    
    optimizer = AdamW(model.parameters(), lr=5e-5)
    num_epochs = 3
    num_training_steps = num_epochs * len(train_dataloader)
    lr_scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=0, num_training_steps=num_training_steps)
    
  3. 训练模型
    使用 PyTorch 的训练循环训练模型。

    import torch
    from tqdm.auto import tqdm
    
    device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
    model.to(device)
    
    progress_bar = tqdm(range(num_training_steps))
    
    model.train()
    for epoch in range(num_epochs):
        for batch in train_dataloader:
            batch = {
         k: v.to(device) for k, v in batch.items()}
            outputs = model(**batch)
            loss = outputs.loss
            loss.backward()
    
            optimizer.step()
            lr_scheduler.step()
            optimizer.zero_grad()
            progress_bar.update(1)
    

五、模型评估

训练完成后,我们需要评估模型在测试集上的表现。

from sklearn.metrics import accuracy_score

model.eval()
predictions, true_labels = [], []

with torch.no_grad():
    for batch in eval_dataloader:
        batch = {
   k: v.to(device) for k, v in batch.items()}
        outputs = model(**batch)
        logits = outputs.logits
        predictions.extend(torch.argmax(logits, dim=-1).cpu().numpy())
        true_labels.extend(batch['labels'].cpu().numpy())

accuracy = accuracy_score(true_labels, predictions)
print(f'Accuracy: {accuracy:.4f}')

六、总结

通过本文的教程,我们详细介绍了如何使用 Hugging Face 的 Transformers 库构建和训练一个文本分类模型。从环境搭建到数据预处理,再到模型选择与训练,每一步都提供了具体的代码示例。希望本文能够帮助你快速上手 Hugging Face 的 Transformers 库,并在实际项目中应用这些技术。未来的工作中,我们还可以进一步探索模型的优化和调参,以提升模型的性能。祝你在 NLP 的道路上取得更大的进展!

目录
相关文章
|
3天前
|
人工智能 自然语言处理 Shell
深度评测 | 仅用3分钟,百炼调用满血版 Deepseek-r1 API,百万Token免费用,简直不要太爽。
仅用3分钟,百炼调用满血版Deepseek-r1 API,享受百万免费Token。阿里云提供零门槛、快速部署的解决方案,支持云控制台和Cloud Shell两种方式,操作简便。Deepseek-r1满血版在推理能力上表现出色,尤其擅长数学、代码和自然语言处理任务,使用过程中无卡顿,体验丝滑。结合Chatbox工具,用户可轻松掌控模型,提升工作效率。阿里云大模型服务平台百炼不仅速度快,还确保数据安全,值得信赖。
157353 24
深度评测 | 仅用3分钟,百炼调用满血版 Deepseek-r1 API,百万Token免费用,简直不要太爽。
|
5天前
|
人工智能 API 网络安全
用DeepSeek,就在阿里云!四种方式助您快速使用 DeepSeek-R1 满血版!更有内部实战指导!
DeepSeek自发布以来,凭借卓越的技术性能和开源策略迅速吸引了全球关注。DeepSeek-R1作为系列中的佼佼者,在多个基准测试中超越现有顶尖模型,展现了强大的推理能力。然而,由于其爆火及受到黑客攻击,官网使用受限,影响用户体验。为解决这一问题,阿里云提供了多种解决方案。
16988 37
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
5天前
|
并行计算 PyTorch 算法框架/工具
本地部署DeepSeek模型
要在本地部署DeepSeek模型,需准备Linux(推荐Ubuntu 20.04+)或兼容的Windows/macOS环境,配备NVIDIA GPU(建议RTX 3060+)。安装Python 3.8+、PyTorch/TensorFlow等依赖,并通过官方渠道下载模型文件。配置模型后,编写推理脚本进行测试,可选使用FastAPI服务化部署或Docker容器化。注意资源监控和许可协议。
1310 8
|
13天前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
3416 117
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
8天前
|
人工智能 自然语言处理 API
DeepSeek全尺寸模型上线阿里云百炼!
阿里云百炼平台近日上线了DeepSeek-V3、DeepSeek-R1及其蒸馏版本等六款全尺寸AI模型,参数量达671B,提供高达100万免费tokens。这些模型在数学、代码、自然语言推理等任务上表现出色,支持灵活调用和经济高效的解决方案,助力开发者和企业加速创新与数字化转型。示例代码展示了如何通过API使用DeepSeek-R1模型进行推理,用户可轻松获取思考过程和最终答案。
|
5天前
|
人工智能 自然语言处理 程序员
如何在通义灵码里用上DeepSeek-V3 和 DeepSeek-R1 满血版671B模型?
除了 AI 程序员的重磅上线外,近期通义灵码能力再升级全新上线模型选择功能,目前已经支持 Qwen2.5、DeepSeek-V3 和 R1系列模型,用户可以在 VSCode 和 JetBrains 里搜索并下载最新通义灵码插件,在输入框里选择模型,即可轻松切换模型。
934 14
|
12天前
|
API 开发工具 Python
阿里云PAI部署DeepSeek及调用
本文介绍如何在阿里云PAI EAS上部署DeepSeek模型,涵盖7B模型的部署、SDK和API调用。7B模型只需一张A10显卡,部署时间约10分钟。文章详细展示了模型信息查看、在线调试及通过OpenAI SDK和Python Requests进行调用的步骤,并附有测试结果和参考文档链接。
1938 9
阿里云PAI部署DeepSeek及调用
|
9天前
|
人工智能 数据可视化 Linux
【保姆级教程】3步搞定DeepSeek本地部署
DeepSeek在2025年春节期间突然爆火出圈。在目前DeepSeek的网站中,极不稳定,总是服务器繁忙,这时候本地部署就可以有效规避问题。本文以最浅显易懂的方式带读者一起完成DeepSeek-r1大模型的本地部署。
|
12天前
|
缓存 自然语言处理 安全
快速调用 Deepseek API!【超详细教程】
Deepseek 强大的功能,在本教程中,将指导您如何获取 DeepSeek API 密钥,并演示如何使用该密钥调用 DeepSeek API 以进行调试。

热门文章

最新文章