技术抉择:微调还是 RAG?——以春节祝福生成为例
本文以春节祝福生成为例,剖析微调与RAG的本质差异:RAG解决“信息缺失”,微调重塑“表达偏好”。当任务重风格、重分寸、重一致性(如拜年话术),模型缺的不是知识,而是默认的得体表达——此时微调比RAG更直接、可控、高效。
第一次跑通 PPO:实战卡点全拆解
PPO实战难点不在算法理解,而在系统性不确定:需先明确对齐目标,以SFT模型为起点,严格使用reference model,设计偏好式reward,聚焦policy更新与KL系数调控,并通过行为变化而非loss曲线评估进展——本质是耐心跑通最小闭环。