别再只会调用 API 了：一步步教你用 Python Fine-Tune 一个定制化大模型

2026-02-26 494

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS DuckDB + QuickBI 企业套餐，8核32GB + QuickBI 专业版

简介： 别再只会调用 API 了：一步步教你用 Python Fine-Tune 一个定制化大模型

别再只会调用 API 了：一步步教你用 Python Fine-Tune 一个定制化大模型

作者：Echo_Wish

很多朋友问我：

“大模型这么强，我能不能把它调成更懂我业务的样子？”

答案是：当然可以。

而且你不需要自己从头训练一个模型（那是大厂干的事），我们今天讲的是——

在现有开源大模型基础上，用 Python 做 Fine-tune（微调）

我们会用：

PyTorch
Hugging Face Transformers
PEFT
LoRA

一步一步来，不讲虚的。

一、Fine-tune 到底在干嘛？

先别急着写代码。

大模型本质上是个“语言概率机器”，
你给它一个 prompt，它预测下一个 token。

Fine-tune 的本质是：

用你自己的数据，重新“轻轻”调整参数，让它偏向你的语境。

比如：

法律问答
医疗问答
公司内部知识
客服回复风格

你不是让模型变聪明，
而是让它“更像你”。

二、整体流程长什么样？

核心流程：

准备数据 → 加载模型 → 加载 LoRA → 训练 → 保存 → 推理验证

记住一句话：

真正决定效果的是数据，不是训练代码。

三、准备你的训练数据（最重要的一步）

我们假设做一个“采购与供应链助手”。

数据格式如下（JSONL）：

{
   "instruction": "如何评估供应商风险？", 
 "output": "可以从财务状况、交付能力、合规性三个维度评估。"}

注意：

问答格式清晰
不要太长
风格统一

然后用 Python 加载：

from datasets import load_dataset

dataset = load_dataset("json", data_files="train.jsonl")
print(dataset["train"][0])

你会得到结构化数据。

四、加载基础模型

我们选择一个开源模型，比如 LLaMA 系列或 Mistral。

（具体名称我不写死，原则是：7B 起步，单卡可跑）

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "your-base-model"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    torch_dtype="auto"
)

这一步就是把“大脑”搬进来。

五、为什么一定要用 LoRA？

直接全量训练？

可以。

但你会遇到：

显存炸
成本高
训练慢

所以我们用：

LoRA

核心思想：

不改全部参数，只插入低秩矩阵。

代码如下：

from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=8,
    lora_alpha=16,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, lora_config)
model.print_trainable_parameters()

你会发现：

原本几十亿参数
现在只训练几百万

显存直接降一半以上。

六、数据 Token 化

模型只能吃 token。

def preprocess(example):
    text = f"### 指令:\n{example['instruction']}\n\n### 回答:\n{example['output']}"
    return tokenizer(
        text,
        truncation=True,
        max_length=512,
        padding="max_length"
    )

dataset = dataset.map(preprocess)

这一步是把文字变成数字。

七、正式训练

from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir="./lora-model",
    per_device_train_batch_size=2,
    num_train_epochs=3,
    logging_steps=10,
    save_steps=100,
    learning_rate=2e-4,
    fp16=True
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset["train"]
)

trainer.train()

训练时间取决于：

模型大小
数据量
GPU

一张 24GB 显存卡跑 7B LoRA 完全没问题。

八、保存与加载

model.save_pretrained("./lora-model")
tokenizer.save_pretrained("./lora-model")

加载测试：

from transformers import pipeline

pipe = pipeline("text-generation", model="./lora-model")

result = pipe("如何评估供应商风险？")
print(result)

你会发现它的回答风格已经变了。

这就是微调的力量。

九、Fine-tune 常见坑

1️⃣ 数据太少

几十条数据，模型不会有明显变化。

建议：

至少几千条
风格一致

2️⃣ 学习率太大

容易“灾难性遗忘”。

3️⃣ 数据质量差

模型会学坏。

大模型就像小孩，
你喂垃圾，它输出垃圾。

十、一个更完整的生产架构

如果你想更专业，可以搭建：

数据清洗
自动评估
自动训练
模型注册
在线部署

配合：

MLflow
Ray

可以做自动化训练流水线。

最后说点真心话

很多人觉得 Fine-tune 很神秘。

其实本质很简单：

用你的数据，微调已有模型，让它更懂你。

真正难的不是代码。

是：

数据构建能力
业务抽象能力
评估体系

当你能系统地构建数据时，
你已经不再是“模型调用者”。

你是在打造“自己的智能体”。

别被“大模型”三个字吓到。

别再只会调用 API 了：一步步教你用 Python Fine-Tune 一个定制化大模型

别再只会调用 API 了：一步步教你用 Python Fine-Tune 一个定制化大模型

一、Fine-tune 到底在干嘛？

二、整体流程长什么样？

三、准备你的训练数据（最重要的一步）

四、加载基础模型

五、为什么一定要用 LoRA？

六、数据 Token 化

七、正式训练

八、保存与加载

九、Fine-tune 常见坑

1️⃣ 数据太少

2️⃣ 学习率太大

3️⃣ 数据质量差

十、一个更完整的生产架构

最后说点真心话

大数据与机器学习

热门文章

最新文章

相关电子书