QwQ-32B “小身材大能量”,有哪些值得关注的技术亮点?
两阶段 RL 框架:传统 RL 训练依赖单一奖励模型,而 QwQ-32B 首创两阶段 RL 框架。第一阶段通过数学验证器和代码沙盒构建 “绝对正确性” 反馈,确保解题逻辑严密性;第二阶段引入人类价值观对齐模块,使模型在通用任务中兼顾准确性与安全性。分组查询注意力(GQA)技术:采用 GQA 技术,使 RTX 3090 消费级显卡可运行量化版模型(q4_K_M),推理速度达每秒 42Token,而 DeepSeek - R1 量化后仍需专业计算卡支持。RoPE + 动态 NTK 扩展技术:集成 RoPE + 动态 NTK 扩展技术,将上下文窗口提升至 131k Token,长文档处理能力比 Mistral - 8x22B 提升 30%。混合专家系统(MoE)轻量化方案:采用 MoE 轻量化方案,在保持 32 个专家网络的同时,内存占用仅为 DeepSeek - MoE - 16B 的 75%。规则增强型 RLHF:通过法律条款、伦理准则等硬约束,使有害内容拒绝率(98.7%)超过 GPT - 4(96.2%)。
赞39
踩0