32B模型性能直逼671B的DeepSeek-R1!Skywork-OR1:昆仑万维开源推理模型,突破数学与代码双极限

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: Skywork-OR1系列模型通过强化学习框架与多阶段训练策略,在数学推理与代码生成领域实现突破性进展,其7B参数版本在AIME数学数据集上超越同规模模型,32B版本性能接近671B参数竞品。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎯 「32B参数模型性能直逼671B的DeepSeek-R1!开源推理模型把数学题碾成渣」

大家好,我是蚝油菜花。当开发者还在为多模态模型的理解力抓狂时,这个来自昆仑万维的开源核弹正在重写推理模型的游戏规则!

你是否经历过这些AI智障时刻:

  • ∑ 让AI解微分方程,结果把积分符号当表情包输出
  • 💻 代码生成器把Python写成火星语,调试比手写还费劲
  • 📊 想用模型做数据分析,却发现它连基础统计概念都混乱...

今天要解密的 Skywork-OR1 ,用三大技术革新终结这些尴尬:

  • 数学脑外科手术:专项模型AIME数学题正确率碾压同尺寸选手
  • 代码炼金术:32B参数模型性能直逼671B规模竞品
  • 推理加速器:多阶段训练策略让模型像人类般逐步思考

已有科研团队用它破解流体力学方程,程序员靠它生成千行级项目代码——你的AI工具箱,是时候装上「推理外挂」了!

🚀 快速阅读

  1. Skywork-OR1是昆仑万维推出的开源高性能推理模型系列,包含7B/32B参数版本
  2. 核心功能:数学推理精度达69.8%、代码生成效率提升40%、支持多轮逻辑推演
  3. 技术原理:GRPO强化学习框架、11万题数学数据集、动态熵控制采样策略

Skywork-OR1 是什么

Skywork-OR1系列基于GRPO强化学习框架构建,通过多阶段训练策略逐步扩展模型的上下文处理能力。该系列包含三个版本:7B参数数学专项模型、7B通用预览版和32B旗舰版,分别针对不同复杂度的推理任务优化。

Skywork-OR1-32b_perf

其训练数据经过严格筛选,数学数据集涵盖11万道高难度题目,代码数据集保留1.37万条通过单元测试的问题。在训练过程中采用动态采样验证机制,确保每个训练样本的有效性和挑战性。

Skywork-OR1 的主要功能

Skywork-OR1-7b_perf

  • 高阶数学推理:专项模型在AIME24/25数据集分别取得69.8%和52.3%准确率
  • 全栈代码生成:支持多语言代码框架搭建与优化,LiveCodeBench性能提升43.6%
  • 长链逻辑推演:通过多阶段窗口扩展训练,实现复杂问题的分步解决
  • 自适应熵控制:在强化学习中采用τ=1.0高温采样,增强模型探索能力

Skywork-OR1 的技术原理

  • 数据蒸馏技术:从89.6万题数学库中筛选AIME/Olympiads等高难度子集
  • 混合验证机制:结合人工评审与LLM自动判题,清理低质量训练样本
  • 策略损失优化:移除KL散度约束,在批次内平均所有token的损失值
  • 窗口渐进训练:分阶段扩展上下文长度,提升长文本推理稳定性

如何运行 Skywork-OR1

1. 环境准备

Docker部署

docker pull whatcanyousee/verl:vemlp-th2.4.0-cu124-vllm0.6.3-ray2.10-te2.0-megatron0.11.0-v0.0.6
docker run --runtime=nvidia -it --rm --shm-size="10g" --cap-add=SYS_ADMIN -v <image:tag>
git clone https://github.com/SkyworkAI/Skywork-OR1.git && cd Skywork-OR1 && pip3 install -e .

Conda部署

conda create -n verl python==3.10
conda activate verl
pip3 install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu124
pip3 install flash-attn --no-build-isolation
git clone https://github.com/SkyworkAI/Skywork-OR1.git
cd Skywork-OR1 && pip3 install -e .

2. 模型评估

数据准备

huggingface-cli download Skywork/LiveCodeBench --repo-type=dataset --local-dir ./or1_data/eval/livecodebench
unzip ./or1_data/eval/livecodebench/livecodebench.zip -d ./or1_data/eval/livecodebench/

执行测试

bash ./or1_scripts/eval/eval_7b.sh
bash ./or1_scripts/eval/eval_32b.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
机器学习/深度学习 人工智能 测试技术
昆仑万维开源 Skywork R1V:开源多模态推理核弹!视觉链式分析超越人类专家
Skywork R1V 是昆仑万维开源的多模态思维链推理模型,具备强大的视觉链式推理能力,能够在多个权威基准测试中取得领先成绩,推动多模态推理模型的发展。
106 4
昆仑万维开源 Skywork R1V:开源多模态推理核弹!视觉链式分析超越人类专家
|
13天前
|
机器学习/深度学习 人工智能 算法
小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头
小米开源的MiMo推理大模型通过联动预训练与强化学习算法,在7B参数规模下实现数学推理与代码生成能力的突破性提升,技术报告显示其性能超越部分32B级模型。
323 74
小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头
|
26天前
|
机器学习/深度学习 人工智能 Python
32B参数碾压千亿模型?GLM-Z1-32B:智谱开源新一代推理模型,数学代码逻辑全制霸
GLM-Z1-32B是智谱开源的32B参数推理模型,基于GLM-4-32B深度优化,在数学、代码和逻辑任务上表现卓越,推理速度高达200 tokens/s,支持轻量化部署和商用场景。
114 12
32B参数碾压千亿模型?GLM-Z1-32B:智谱开源新一代推理模型,数学代码逻辑全制霸
|
1月前
|
机器学习/深度学习 人工智能 JSON
OPPO联合港科大推出多模态推理优化框架 OThink-MR1:让AI学会『举一反三』,几何推理准确率暴增
OThink-MR1是OPPO与港科大联合研发的多模态优化框架,通过动态KL散度策略和奖励模型显著提升模型在视觉计数等复杂任务中的泛化能力。
94 20
OPPO联合港科大推出多模态推理优化框架 OThink-MR1:让AI学会『举一反三』,几何推理准确率暴增
|
28天前
|
机器学习/深度学习 小程序 测试技术
全新GLM模型登场:9B/32B系列模型全面开源,性能媲美顶尖选手,MIT协议商用无忧!
智谱开源 32B/9B 系列 GLM 模型,涵盖基座、推理、沉思模型,均遵循 MIT 许可协议。该系列模型现已发布魔搭社区。其中,推理模型 GLM-Z1-32B-0414 性能媲美 DeepSeek-R1 等顶尖模型,实测推理速度可达 200 Tokens/秒。
126 3
全新GLM模型登场:9B/32B系列模型全面开源,性能媲美顶尖选手,MIT协议商用无忧!
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
Fin-R1:上海财大开源金融推理大模型!7B参数竟懂华尔街潜规则,评测仅差满血版DeepSeek3分
Fin-R1是上海财经大学联合财跃星辰推出的金融领域推理大模型,基于7B参数的Qwen2.5架构,在金融推理任务中表现出色,支持中英双语,可应用于风控、投资、量化交易等多个金融场景。
168 5
Fin-R1:上海财大开源金融推理大模型!7B参数竟懂华尔街潜规则,评测仅差满血版DeepSeek3分
|
4月前
|
人工智能 自然语言处理 算法
完全开源的代码大模型OpenCoder来了,跻身性能第一梯队
在人工智能领域,大型语言模型(LLM)尤其在代码生成等任务中展现出巨大潜力。然而,高质量、可复现的开源代码LLM仍稀缺。为此,多领域专家团队推出了OpenCoder,一个顶级开源代码LLM。它不仅性能卓越,还提供了完整的数据处理流程和训练协议,确保研究的可复现性。OpenCoder的开放性为研究社区提供了从数据准备到模型训练的全流程指导,成为推动代码AI领域发展的关键工具。论文链接:https://arxiv.org/abs/2411.04905
259 91
|
2月前
|
人工智能 JavaScript Python
反超DeepSeek!新版GPT-4o登顶竞技场,奥特曼:还会更好
反超DeepSeek!新版GPT-4o登顶竞技场,奥特曼:还会更好
|
4月前
|
人工智能 自然语言处理 安全
微软phi-4来啦!小模型之光,14B科学、代码等能力超70B模型效果!
微软研究院的最新成果——Phi-4来啦!近日,微软公布了Phi家族的最新一代模型Phi-4的技术报告,模型同步开源,Phi-4建立在合成数据集、过滤后的公共领域网站数据以及获得的学术书籍和问答数据集的基础上,训练数据量为9.8 T tokens, 目标是确保小模型使用专注于高质量和高级推理的数据进行训练。
372 1
|
10月前
|
人工智能 自然语言处理 算法
昆仑万维携手南洋理工大学抢发Q*算法:百倍提升7B模型推理能力
【7月更文挑战第4天】昆仑万维与南洋理工大学推出Q*算法,大幅提升7B规模语言模型的推理效能。Q*通过学习Q值模型优化LLMs的多步推理,减少错误,无需微调,已在多个数据集上展示出显著优于传统方法的效果。尽管面临简化复杂性和效率挑战,这一创新为LLM推理能力提升带来重大突破。[论文链接:](https://arxiv.org/abs/2406.14283)**
160 1

热门文章

最新文章