从微调到 PPO：祝福 AI 的下一步进化-阿里云开发者社区

从微调到 PPO：祝福 AI 的下一步进化

2026-02-14 265

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文探讨祝福AI从“写得不错”到“越写越懂你”的演进路径：SFT微调已解决群体风格对齐，而PPO强化学习则让模型基于用户反馈（点赞、修改、发送等）动态适配个体偏好，学会为表达后果负责——不是教它“怎么说”，而是教它“何时这样说才对”。

当“写得不错”，已经不再让人满足

在这样的祝福生成场景中，当你第一次看到微调后的模型输出，通常会有一种很明确的感受：

“嗯，这次是真的能用了。”

它不再像模板，不再那么官方，
很多句子甚至可以直接复制发送。

但用着用着，你可能会冒出下一个念头：

“如果它能记住我喜欢什么风格就好了。”
“如果它能根据对方的回复，微调一下语气就更好了。”

这一刻，其实非常重要。

因为这意味着：
问题已经不再是“模型会不会写”，
而是“模型会不会学习你的偏好”。

这正是 PPO 这种强化学习方法，真正开始有意义的地方。

一、先把边界说清楚：当前祝福 AI，已经解决了什么

在进入 PPO 之前，必须先承认一件事：

通过 SFT / LoRA 微调，
“写得得体”这件事，其实已经被解决了。

在祝福这个场景里，微调已经完成了三件关键事情：

固定了整体风格分布
明确了关系与语气的映射
让“像人说的话”成为默认输出

这一步解决的是：

群体层面的偏好对齐。

也就是说，它让模型更符合“我们认为大多数情况下是合适的表达”。

但它仍然缺一块能力：

个体层面的持续适配。

而这块能力，靠再多静态数据，是补不上的。

二、“越写越懂你”，到底意味着什么

在工程语境里，“懂你”并不是一个模糊概念，它至少包含三层含义：

同一个人，多次使用后，风格逐渐贴合
对不同反馈（满意 / 不满意）做出区分
在相似场景中，主动调整表达策略

举个非常具体的例子：

你总是删掉过于热情的祝福 → 模型应该收敛
你偏好轻松自然、不爱长句 → 模型应该缩短
你对技术梗点赞多 → 模型应该更敢用

这些行为，本质上都是：

“这次表达，值不值得下次再来一次”。

而这，正是强化学习擅长处理的信号类型。

三、为什么 SFT 学不会这件事

一个很自然的问题是：

“那我把用户点赞的数据收集起来，
再做一次微调不行吗？”

理论上可以，但实践中问题很多。

因为 SFT 的假设前提是：

数据是静态的
好坏是稳定的
每个样本的重要性相近

但用户反馈恰恰相反：

是稀疏的
是延迟的
强烈依赖上下文

你很难通过一次次重训，让模型：

快速适应某一个用户
在不破坏整体风格的情况下微调细节

于是你会发现：

SFT 更像是在“定性格”，
而不是“学相处”。

四、PPO 在这里真正解决的是什么问题

如果用一句话概括 PPO 在祝福场景里的价值，那就是：

它让模型开始为“后果”负责。

在 PPO 的视角下，生成一句祝福不再是终点，而是：

一个动作（action）
接下来会得到反馈（reward）
这个反馈会影响未来的选择

这和人类学习如何说话，非常相似。

我们并不是靠“被教正确句子”学会分寸的，
而是靠：

说了之后，对方的反应
逐渐调整自己的表达方式

PPO 做的，就是把这种机制搬进模型训练里。

五、在春节祝福场景里，reward 可以从哪来

说到这里，很多人会卡在一个现实问题上：

“那 reward 怎么设计？”

在祝福场景中，reward 往往不会来自复杂标注，而是非常朴素的用户行为。

例如：

👍 点赞 → 正向 reward
👎 点踩 → 负向 reward
直接复制发送 → 强正向信号
明显修改后再发送 → 弱负向信号

这些信号本身并不完美，但它们有一个共同点：

它们都真实反映了“这句话有没有被用”。

而 PPO 并不要求 reward 非常精确，它更关心的是：

相对好坏
长期趋势

六、一个“假想但合理”的 PPO 训练流程

如果我们在「码上拜年」的基础上，畅想引入 PPO，一个合理的工程流程可能是这样的：

第一步：用 SFT 模型作为初始策略

这一步非常重要，因为：

PPO 不是从零开始
它只是在已有风格上做细调

第二步：收集用户交互数据

包括：

输入描述
模型生成结果
用户反馈信号

第三步：训练一个简单的 reward model（或直接用规则）

在早期阶段，甚至可以不训练复杂 reward model，
而是用规则把反馈映射成分数。

第四步：用 PPO 做小步策略更新

重点不是“马上变聪明”，而是：

不要破坏已经跑通的风格基线。

七、为什么 PPO 特别适合“持续使用”的祝福场景

春节祝福这个场景，有一个很容易被忽略的优势：

用户会反复使用
同一个用户的偏好高度一致
反馈虽然稀疏，但长期稳定

这正是 PPO 发挥作用的理想条件。

相比一次性生成任务，
这种“反复互动、风格累积”的场景，更像：

长期博弈，而不是单次考试。

PPO 优化的，也正是这种长期策略。

八、必须泼的冷水：PPO 引入的真实成本

说到这里，也必须非常明确地说一句：

PPO 并不是下一步的“自然升级”，
而是一次显著的工程复杂度跃迁。

它带来的成本包括：

更复杂的数据链路
更难调的训练稳定性
reward 设计错误的风险
模型“学会讨好”的可能性

在祝福这种“轻但敏感”的场景中，一旦 reward 设计不当，很容易：

过度迎合
情绪失真
输出变得油腻

这也是为什么：

PPO 应该是“已经很好之后”的选择，
而不是“还不够好时的救命稻草”。

九、那这条路到底“还有多远”？

回到标题的问题。

从“会写祝福”到“越写越懂你”，
中间并不是一小步，而是：

从静态偏好
到动态策略
从一次生成
到长期互动

如果用阶段来划分：

当前：SFT + 高质量数据（已完成）
下一步：更精细的主观评估 + A/B 对照
再下一步：小规模、低权重的 PPO 尝试

这是一条可以走，但不必急着走的路。

在考虑从微调向 PPO 这类强化学习方案演进之前，先通过LLaMA-Factory Online把 SFT 阶段跑稳、风格边界验证清楚，会大幅降低后续引入 PPO 的不确定性。强化学习不是起点，而是建立在“已经知道自己想要什么”之上的工具。

总结：PPO 不是让 AI 更会写，而是让它开始“记住后果”

用一句话收尾这篇文章：

SFT 让模型学会怎么说，
PPO 才开始教它：
什么时候这样说，
才是对的。

在春节祝福这样的场景里，我们或许暂时不需要走到 PPO；
但一旦你开始期待 AI：

能逐渐贴近你的个人风格
能根据互动调整语气
能在长期使用中“越写越像你”

那你终究会走到这一步。