春节前两周,产品找我开了个短会。
“我们要做个马年祝福生成器,要那种……特别走心的,不能是百度搜出来那种。”
我心里咯噔一下,又要跟大模型较劲了。
果然,初版Demo翻车了。模型倒是听话,洋洋洒洒写满了吉祥话,可读出来总觉得哪里不对——太正了。客户收到会礼貌回复,朋友收到会回个表情包,恋人收到大概会以为被盗号了。
这是大模型的通病:它懂语法,但不懂气氛。
我们决定微调。但这篇文章我不想只讲“我们怎么训练了一个模型”,更想聊聊选型时踩的坑,以及为什么在小程序这个场景里,我们放弃了更“聪明”的Qwen3,甚至主动把它的大脑摘掉了一块。
选型困局:我们要快、要准、还要会“抖机灵”
项目第一个分歧就出在选基座上。
团队有同事推荐Llama-3-8B,理由是轻量、部署成本低,在小程序这种高频调用场景下延迟友好。也有同事坚持用Qwen2.5-32B,毕竟中文理解沉淀在那里。
我们拉了个表,把祝福语场景拆成三个维度:
- 创意性:能不能写出“祝你梯度下降永不陷于局部最优”这种梗
- 指令跟随:严格按用户选的风格(商务/科技/家常)输出,不能跑偏
- 推理速度:用户在小程序点完按钮,3秒内必须出结果
结果Llama-8B中文创意项先出局,它写不出“马年”和“Transformer注意力”的双关。Qwen2.5-32B稳,但太稳了,像老干部写贺词。
这时候Qwen3-32B发布了,官方主推的卖点是“支持深度思考(CoT)”。我们兴奋地测了一轮,结果发现:
它想得太多了。
一个“给老板拜年”的请求,它先在脑子里演了五轮职场伦理剧,生成延迟飙到8秒以上;而且CoT经常把“思考过程”泄露进最终文案,出现类似“考虑到对方是领导,所以此处应使用敬语”这种画外音,非常出戏。
最后我们做了一个反直觉的决定:
用Qwen3-32B,但在微调和推理时强制禁用CoT。
对,我们要它的中文基底,但不要它的“深度思考”。在这个场景里,直觉比逻辑重要,流畅比严谨重要。关闭CoT后,生成速度提升了近40%,而且文案终于像人话而不是论文摘要了。
这里其实暴露了一个普遍痛点:选模型不是选最强的,而是选最听话的。如果你手上正好有类似“特定场景化”的需求——比如让AI模仿你的口吻回评论、帮客服写不那么像机器人的话——靠提示词硬改底层模型很吃力。我们后期微调全跑在LLaMA-Factory Online上,不用配环境,传个Excel就能把“交往细节”这种字段对齐到模型参数里。即使没有代码基础,也能轻松跑完微调流程,在实践中理解怎么让模型“更像你想要的样子”。如果你正在找一个低门槛的微调平台,这个值得留意。
数据才是真正的“人情味”开关
模型选定了,最难的部分才开始。
开源数据集里找不到“给分手半年的前任写祝福”或者“给怼过你的甲方拜年”这种样本。我们只能自己造。
最开始我们尝试让GPT-4批量生成,结果发现一个问题:GPT-4写的祝福语太“完美”了,完美到没有个性。人类真正发出去的消息其实是有毛边的——语序微调、表情包乱入、甚至带点自嘲。
我们调整策略:先人工写种子数据,再用模型扩写,最后人工二轮清洗。
这里分享一个我们定义的“关系感知”字段结构,后来证明非常有效:
- 称呼:宝贝/张总/老王
- 关系:恋人/前同事/客户
- 交往细节:这栏最关键,是用户自己填的,比如“去年一起通宵赶过标书”
- 风格:只有四档——传统喜庆、轻松自然、商务得体、LLM科技风
- 场合:微信聊天还是当面说
- 篇幅:三档,50字以内专门给红包备注用
这套结构等于给模型画了一个框,告诉它:“别自由发挥,用户要什么你就给什么。”
训练时我们把每一对(用户请求 + 人工润色后的回复)拼成对话模板,喂进LLaMA-Factory Online做LoRA微调。2张H800A,6个epoch,30分钟搞定。
效果翻车与惊喜:那些Prompt调不出来的东西
微调后的模型有个很有意思的变化。
微调前,你输入“给同事、科技风、马年祝福”,它会输出:
“祝您在马年里算力充沛,模型收敛,事业一马当先。”
没毛病,但记不住。
微调后,同样的输入,它输出:
“祝咱们新年继续组队carry,你调参我debug,loss归零,马到成功!”
区别在哪?前者是描述祝福,后者是模拟说话。
我们测了几组对照,发现Qwen3-32B微调版在处理“交往细节”时表现明显更好。比如用户填了“我们去年合作过马术项目”,Qwen3-32B会把“马”和“项目复盘”自然串起来,而不是生硬地堆叠“马到成功”。
这可能得益于它预训练阶段积累的多轮对话能力,即使禁用了CoT,它对语境线索的敏感度依然高于2.5版本。
当然也有翻车案例。LLM科技风风格下,模型有时过度堆砌术语,生成过像“祝你embedding维度越来越高”这种连开发者都看不懂的句子。我们不得不在后处理阶段加了一个“术语密度检测”,超标就回退重写。
一点小反思
这个项目做下来,我最大的感受是:
AI不缺文采,缺的是分寸感。
我们不需要它写出惊世骇俗的句子,只需要它别把给恋人的消息写得像给客户的消息。这件事靠提示词很难固化,但靠几十条高质量样本的微调,效果立竿见影。

希望这个马年,你发出的每一句祝福,都刚好是对方想收到的那一句。