QwQ-32B “小身材大能量”,有哪些值得关注的技术亮点?
Transformer 架构优化:采用 64 层 Transformer 架构,每层集成 RoPE(旋转位置编码)、SwiGLU(Swish Gated Linear Unit)激活函数、RMSNorm(Root Mean Square Layer Normalization)层归一化和 Attention QKV bias 等技术。这些技术的组合优化了模型对文本的处理能力,提升了计算效率和性能表现,使模型能够更好地捕捉文本中的语义信息和长序列依赖关系。广义查询注意力(GQA)机制:引入 GQA 机制,支持扩展上下文长度达 131,072 tokens。这极大地增强了模型对长文本的理解和处理能力,使其在处理复杂推理任务、长文档摘要和长代码推理等场景时更具优势,能够充分利用长序列信息进行准确的推理和生成。分阶段强化学习策略:训练过程分为两个阶段的强化学习。第一阶段专注于数学推理和编程任务的训练,通过准确性验证器和代码执行服务器实时验证数学问题的解和生成代码的正确性,这种基于结果的奖励机制使模型在数学和编程领域快速提升能力。第二阶段在第一阶段基础上,引入通用奖励模型和基于规则的验证器,扩展到通用能力的训练,包括指令跟随、与人类偏好的对齐以及代理推理能力等,确保模型在不同任务上都能取得良好的综合性能。
赞49
踩0