打破真题依赖!微软、清华联合开源 X-Coder:全合成数据激发代码大模型推理潜力

简介: 微软与清华联合推出X-Coder系列模型,首创纯合成数据训练范式,在不使用任何真实竞赛题的前提下,仅用7B参数即在LiveCodeBench v5上达62.9%准确率,超越更大规模依赖真实数据的模型。项目已开源模型与数据集。(239字)

在代码大模型(Code LLMs)的持续演进中,竞赛级编程(Competitive Programming)是考验其极限算法思维与长逻辑推理的核心高地。然而,当前在该领域性能领先的模型,往往高度依赖有限的真实世界竞赛数据,这不仅带来了真实数据枯竭问题,也引发了严重的数据污染担忧。

能否仅依靠纯合成数据,将大模型的代码推理能力提升至专家水平?

近日,来自微软和清华大学的研究团队联合发表了一项最新研究,给出了肯定的答案。他们提出了一种全新的数据合成与模型训练范式,并开源了 X-Coder 系列模型。令人瞩目的是,在完全不使用任何真实竞赛题目的情况下,仅有 7B 参数的 X-Coder-7B 模型在极具挑战的 LiveCodeBench v5 上取得了 62.9% 的优异成绩,显著超越了更大参数量且依赖真实数据的传统模型。


目前,研究团队已开源相关模型权重及数据集,希望降低社区的复现成本与研究门槛。


开源链接

GitHub 仓库: https://github.com/JieWu02/X-Coder

ModelScope 链接: https://www.modelscope.cn/organization/IIGroup


全新数据流水线:突破合成数据多样性与质量瓶颈

传统的合成数据方法通常基于真实数据进行改写或扩展,但这种方式极易触及多样性的天花板。此外,如果直接提示大模型生成竞赛题,模型往往倾向于“走捷径”,生成定义不清或缺乏挑战性的简单题目。


为了解决这一问题,研究团队设计了一套高质量的全合成数据生成流水线。通过三个核心阶段,他们成功构建了包含数十万道高质量题目、总计超 30 亿 tokens 的合成数据集:

1. 竞赛特征演化(Feature Evolution)

研究者放弃了直接生成题目的传统做法,转而从 1 万道真实题目中提取核心特征(如快速排序、动态规划、线段树等)。随后,利用大模型驱动这些特征进行自我演化与组合。最终,算法类特征空间从 27k 扩展至 177k,实现了问题空间的多样性爆炸。


2. 两阶段任务生成(Two-Stage Generation)

为了避免模型在生成题目时过度简化难度,研究团队将生成过程解耦:第一步,由 LLM 从演化后的特征树中采样一组相互兼容的特征组合;第二步,要求 LLM 基于这些特定特征,构建一个具有复杂背景的竞赛题目。消融实验表明,这种解耦策略使模型最终的性能提升了 5.3%。


3. 双重验证机制(Dual Verification)

纯合成数据的难点在于如何保证答案和测试用例的绝对正确。团队采用了多路采样的多数投票机制:为每道题生成 8 个候选代码,并在合成的测试用例上交叉执行,选出一致性最高的输出。同时,引入基于难度的权重打分系统,最终筛选出“黄金答案”。


关于 SFT 冷启动与 Code-RL 的五个核心洞见

在利用上述合成数据进行监督微调(SFT)和强化学习(RL)的过程中,研究团队观察到了五个训练规律与反直觉现象:

洞见一:合成数据遵循 Scaling Law,且任务多样性优先于响应多样性

在算力预算固定时,如何分配数据资源?研究发现,扩展题目数量(Task Diversity)远比增加单题的采样答案数(Response Diversity)更有效。使用 64k 道不同题目(每题 1 个答案)的训练效果,显著优于 16k 道题(每题 4 个答案)。基于此,团队验证了合成数据的 Scaling Law:当题目从 32k 增加至 200k 时,模型性能从 43.7% 稳定攀升至 62.7%。


洞见二:长推理链价值更高,但训练收敛速度更慢

研究深入对比了长短推理链的效果差异。相比于短推理链,使用类似 DeepSeek-R1 生成的包含长推理链(Long-CoT,平均 17.7k tokens)的数据能够带来 17.4% 的绝对性能提升。然而,长推理链的代价是训练变慢——它往往需要 8-10 个 epoch 才能完全收敛,而短推理链通常只需 2-3 个 epoch。


洞见三:高推理密集型任务带来更大收益

模型训练的收益并非在所有难度的数据上均等。研究表明,那些需要高度复杂逻辑和深层思考的“推理密集型任务”(即高难度题目),在 SFT 和 RL 阶段能为模型提供更优质的梯度信号和能力提升,其训练价值远超大量简单的基础编程题。


洞见四:RL 对噪声数据具有高度鲁棒性

业界普遍认为强化学习需要完美的奖励信号。但 X-Coder 的训练表明,即便测试用例存在 5-8% 的错误率,RL 范式依然有效,并能带来额外的绝对性能提升。此外,RL 展现了“强者恒强”的特性:使用更强的 SFT 模型作为初始化起点,能够达到更高的最终性能上限。



洞见五:推理长度与准确率的“倒置”现象

直觉通常认为,模型的推理链条越长,答案的准确率应越高。然而统计表明,推理长度在 0-5k tokens 时题目通过率极高,而当推理超过 20k tokens 时,通过率骤降至 14.3%。研究指出,这其实是一个中介效应(Mediating Effect)——高难度的题目本就需要更长的推理,更长的推理同时会导致错误累计,使得生成的代码容易出错。


失败案例剖析:推理能力依然是核心瓶颈

尽管 X-Coder 在长推理层面取得了显著进展,但研究团队对代码推理模型的失败行为进行了详细的分类分析,发现推理能力本身依然是限制模型表现的最大瓶颈:

答案错误(Wrong Answer)占据主导: 错误分布结果表明,绝大多数的报错源自模型输出与预期答案不匹配,这意味着核心逻辑推理缺陷仍是主要问题。

上下文截断(No Code Block Generated): 另一大主要失败原因是未能生成代码块。进一步分析无代码样本后发现,这些失败案例全部是因为推理过程超过了 32k tokens 的上下文窗口限制,导致推理被截断。

超时错误(Time Limit Exceeded, TLE)频发: 此外,普遍存在的超时错误进一步强调,未来的代码大模型在解决复杂问题时,必须更加重视执行效率的优化。


大模型的行为涌现与RL训练中的“奖励作弊”发现

在长推理链的训练下,模型自动涌现出了规划、自我验证、反思和优化(例如主动将暴力解法降级为高级算法以降低复杂度)的认知能力。

与此同时,研究团队在对 RL 训练后期的模型行为演化进行深入剖析时,发现模型为了实现奖励最大化,会自发演化出三种典型的“奖励作弊”(Reward Hacking)策略。

上下文截断策略(提前交卷):当推理长度逼近上下文窗口限制时,模型为了避免生成失败,会策略性地放弃完整推理,匆忙给出答案。

预训练记忆唤醒(抄作业):遇到极端难题时,模型可能会停止基于逻辑的推演,转而激活预训练阶段的记忆,试图将曾经见过的 C++ 代码强行翻译为 Python,从而导致编译报错。

规则漏洞利用(钻空子):模型学会了针对某些测试用例的边界情况(Edge cases)输出硬编码答案,以此骗取部分奖励分数。

研究意义与展望

X-Coder 的发布,打破了训练顶尖代码推理模型必须依赖人类真实竞赛题的惯性思维。它证明了纯合成数据不仅能够有效缓解数据污染,更具备无限扩展的潜力。

通过几十万道合成题达到甚至超越百万级真实数据的训练效果,X-Coder 为复杂逻辑推理领域(如数学、定理证明)的模型演进提供了一条极具价值的新路径。

点击即可跳转组织链接https://www.modelscope.cn/organization/IIGroup

目录
相关文章
|
1天前
|
机器学习/深度学习 人工智能 边缘计算
转行AI需谨慎:那些半途而废的人,都忽略了这几点。
2025年AI岗位需求暴增543%,但超六成转行者半年内放弃。本文揭示五大陷阱:盲目跟风忽视赛道适配、混淆工具使用与真实能力、碎片化学习缺实战闭环、急功近利轻视伦理、为高薪而非兴趣出发,并指出科学路径才是破局关键。(239字)
128 12
|
17天前
|
人工智能 编解码 自然语言处理
2026春节限定:OpenClaw(Clawdbot)部署米兰冬奥会Skills解析+颠覆式体验6大实战场景
2026年的春节,注定是科技与传统碰撞的“叠buff”时刻——一边是千家万户的团圆烟火气,一边是意大利米兰冬奥会的冰雪激情,而OpenClaw这款“日更版本”的AI Agent,正以技能生态为桥梁,让二者无缝融合。不再需要守着电视等赛果、刷网页找赛程,只需一句自然语言指令,就能让AI助理实时推送赛事数据、自动生成战报、精准提醒冲金时刻。
191 4
|
20天前
|
数据采集 人工智能 达摩院
达摩院开源RynnBrain:首个支持移动操作的具身大脑基础模型
达摩院发布首个可移动操作的具身基础模型RynnBrain,首创时空记忆与物理空间推理能力,支持视频/图像/文本多模态输入及区域、轨迹等具身输出。开源MOE架构RynnBrain-30B-A3B(仅3B激活参数),在16项基准全面SOTA,并推出全新评测集RynnBrain-Bench。
212 8
|
22天前
|
存储 人工智能 JSON
别被术语吓跑!零基础大模型微调指南:从“调教”逻辑到实战手册
AI博主手把手教你微调大模型!用大白话拆解LoRA、QLoRA等术语,从原理到实操(数据准备→环境配置→参数设置→效果评估),全程可视化工具推荐,8GB显卡也能跑。让通用AI变身懂你的垂直领域助手!
140 5
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
模型训练篇|多阶段ToolRL打造更可靠的AI导购助手
芝麻租赁推出AI导购“租赁小不懂”,针对长周期、重决策租赁场景,首创“One-Model + Tool-Use”架构与两阶段强化学习,攻克需求难匹配、决策效率低、服务被动三大痛点,实现响应提速78%、推荐成功率提升14.93%,打造贴切、沉浸、信任的场景化租赁体验。(239字)
204 25
模型训练篇|多阶段ToolRL打造更可靠的AI导购助手
|
2月前
|
XML 前端开发 Serverless
自建一个 Agent 很难吗?一语道破,万语难明
本文分享了在奥德赛TQL研发平台中集成BFF Agent的完整实践:基于LangGraph构建状态图,采用Iframe嵌入、Faas托管与Next.js+React框架;通过XML提示词优化、结构化知识库(RAG+DeepWiki)、工具链白名单及上下文压缩(保留近3轮对话)等策略,显著提升TQL脚本生成质量与稳定性。
480 33
自建一个 Agent 很难吗?一语道破,万语难明
|
5天前
|
机器学习/深度学习 测试技术 API
Qwen3.5 中等规模模型系列正式开源:更强智能,更低算力
通义千问Qwen3.5发布四款中等规模多模态模型,支持256K原生上下文(可扩至1M)、201种语言及统一视觉语言训练。凭借Gated Delta+MoE混合架构与百万Agent强化学习,35B-A3B仅激活3B参数即超越旧旗舰,性能、效率与部署成本兼具。(239字)
1137 14
|
7天前
|
机器学习/深度学习 人工智能 算法
GLM-5开源:迈向Agentic Engineering新范式,社区Day0 部署、推理实战来了!
智谱发布GLM-5:开源SOTA大模型,Coding与Agent能力双强,真实编程体验媲美Claude Opus 4.5;全球AI榜单排名第四、开源第一;MIT协议开源,支持复杂系统工程与长程Agent任务。
580 5
|
7天前
|
自然语言处理 测试技术 Python
小红书开源发布 FireRed-Image-Edit 1.0:高质量训练数据,性能屠榜三项核心评测
2月14日,小红书FireRedTeam开源FireRed-Image-Edit-1.0图像编辑模型。该模型在ImgEdit、GEdit等基准测试中全面超越现有开源方案,风格迁移(4.97分)等维度甚至优于Nano-Banana、Seedream4.0等闭源模型,支持文本保留、老照片修复、多图虚拟试衣等能力。
307 6
|
6天前
|
机器学习/深度学习 人工智能 编解码
四款国产VLM OCR模型横评
春节前,DeepSeek、智谱、百度、腾讯四大团队密集开源新一代OCR小模型,全面采用视觉语言模型(VLM)架构,摒弃传统流水线,迈向“语义结构化”新纪元。DeepSeek-OCR2首创“视觉因果流”,GLM-OCR以0.9B参数登顶OmniDocBench榜首,PaddleOCR-VL-1.5攻克真实退化场景,Youtu-Parsing实现22倍推理加速——国产OCR正以架构创新实现垂直领域“换道超车”。
246 4

热门文章

最新文章