如果你已经用LlamaFactory Online微调过模型,大概率接触过SFT(监督微调) 和RLHF(基于人类反馈的强化学习)。前者需要精心构造“问题-答案”对,后者则需要收集大量的偏好对比数据——标注员要反复比较两个回答哪个更好,成本高、流程繁琐。
那么,有没有一种方法,既能利用偏好数据,又不需要成对比较?
KTO(Kahneman-Tversky Optimization) 就是答案。它受行为经济学启发,只需对单个回答给出“好”或“差”的标签,就能让模型学会对齐人类偏好。今天,我们以Qwen3-14B模型为例,演示如何在LlamaFactory Online平台上用KTO方法完成一次完整的微调,并分析微调前后的效果差异。
一键启动:KTO微调全流程
在开始之前,请确保你已注册LlamaFactory Online平台账户并获取密钥,平台支持按需计费,具体费用可查看最新活动或联系客服。
| 配置参数 | 配置项 | 是否预置 | 说明 |
|---|---|---|---|
| 基础模型 | Qwen3-14B | 是 | 经过指令微调,数量约 140 亿(14B),专为多语言语音理解与对话交互任务优化。 |
| 数据集 | kto_en_demo | 是 | 由多领域英文对话示例组成,内容涵盖日常问答、安全对齐、礼貌表达与知识性回复等场景。 |
| 微调方法 | LoRA | - | 显著降低计算与存储成本,兼具高性能与部署灵活性。 |
| 训练方式 | KTO | - | 基于单条回答的偏好对齐,无需成对对比。 |
| GPU | H800A-80G*1(推荐) | - | - |
数据集“kto_en_demo”样本示例,其中“label”即为KTO标签,用boolean值表达:
{
"messages": [
{
"content": "The man cannot be taking a break from trudging by continuing the action.\nThis justifies what answer for what question? Q & A:",
"role": "user"
},
{
"content": "Sure, I'd be happy to help! Here's the answer to your question:\n\nQ: The man cannot be taking a break from trudging by continuing the action.\nA: This justifies the answer that the man is not taking a break from walking, but rather continuing to walk.",
"role": "assistant"
}
],
"label": true
}
选择[微调/模型微调]菜单项,进入模型微调配置页面,模型选择Qwen3-14B、数据集选择kto_en_demo,训练方式选择KTO,其余参数配置如下图所示。参数配置确认无误后即可 “开始训练”。训练过程中,模型会不断调整参数,直至收敛。完成后可在任务中心保存并下载模型文件。

深度解析:微调后模型回答
为分析模型微调前后的性能差异,我们设计了一个关于脑科学对比的提问:“Compare and contrast the roles of the hippocampus and the prefrontal cortex in the human barin, discussing their involvement in memory processing and decision making”。
在[微调/任务中心]找到已完的模型微调任务,单击任务页签的“对话”按钮,进入模型对话页面,输入上述提示词,观察模型回答,模型回答详情可参看“对话详情”。




微调后的Qwen3-14B的回答呈现出一种严谨分层、逻辑透彻的专业科普式讲解风格,结构化表达能力显著增强,展现出成熟教材般的组织能力,内容逻辑严密,能主动构建“对比-联系-总结”的完整链路,表达具备权威科普风格,善于从多维度解释问题,形成系统知识框架,结论明确,总结精炼,便于用户快速抓住核心。
通过本次基于KTO的Qwen3-14B微调实践,我们验证了对于需要让大模型输出高质量、结构化内容的场景(如教育、咨询、技术文档生成),KTO微调是一条值得尝试的高效路径。你不需要海量对比数据,只需要一批“好回答”与“差回答”的单样本,就能让模型学会偏好对齐。下一步,你可以尝试用自己的业务数据(如客服对话、产品说明书)在LlamaFactory Online平台上进行KTO微调,让模型真正服务于你的垂直领域。