直击强化学习前沿，RL专场来袭丨AI Insight Talk直播预告-阿里云开发者社区

直击强化学习前沿，RL专场来袭丨AI Insight Talk直播预告

2025-06-16 269

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在知识爆炸、信息过载的时代，如何洞悉 AI 领域前沿趋势？OpenMMLab 联合 Hugging Face、ModelScope、知乎及机智流等重磅推出 AI Insight Talk

在知识爆炸、信息过载的时代，如何洞悉 AI 领域前沿趋势？OpenMMLab 联合 Hugging Face、ModelScope、知乎及机智流等重磅推出 AI Insight Talk，邀请「强化学习（RL）」「多模态」「AI4S」「Agent」「AI Infra」等领域的前沿项目作者，分享最新突破与深刻洞见，为开源社区持续呈献系列高价值专题盛会！

首场 AI Insight Talk——Hugging Face Papers Live RL 强化学习专场将于北京时间 6 月 14 日（周六）上午 10 点盛大开启，欢迎点击下方按钮预约直播。

魔搭ModelScope社区

分享嘉宾及主题介绍

No.1

零人工数据强化学习推理模型

赵启晨

清华大学自动化系博士生四年级，研究方向是强化学习以及推理模型，其研究成果涉及大语言模型后训练、应用等多个方面。目前发表/在投 15 篇论文，其中多数发表在 NIPS、AAAI、ACL 等顶级会议上、长期担任 NIPS、ICLR、ICML 等顶会审稿人。在 GitHub 上共获得 1500 个 stars，并且被国内外知名机构使用。

简要概述

我们提出了一种全新的强化学习方法——Absolute Zero，它让语言模型在没有任何外部数据的情况下，自主提出学习任务并通过解决这些任务来提升推理能力。这种方法不再依赖人工制作的大量题目和答案，而是通过环境来验证任务和答案的正确性，从而提供可靠的学习反馈。我们设计的系统 Absolute Zero Reasoner 可以自主进化自己的训练内容和推理能力。尽管 AZR 完全没有使用外部数据，它在编程和数学推理任务上仍然达到了当前最先进的性能，超过了那些依赖大量人工数据的模型。我们还发现 AZR 适用于不同规模和类型的模型，具有良好的通用性和可扩展性。

论文地址

https://huggingface.co/papers/2505.03335

模型链接：

https://modelscope.cn/models/bartowski/andrewzh_Absolute_Zero_Reasoner-Coder-14b-GGUF

项目链接

https://github.com/LeapLabTHU/Absolute-Zero-Reasoner

No.2

小米 MiMo-VL 预训练及后训练技术分享

任抒怀

北京大学计算机学院博士生五年级，研究方向为多模态基座模型、理解生成统一等。目前已在 CVPR，ACL，NeurIPS 等国际顶级会议上以第一作者身份发表多篇论文。谷歌学术引用超过 2300。获国家奖学金、北京大学优秀毕业生、NeurIPS scholar、ACL 杰出审稿人等称号。

简要概述

MiMo-VL 是小米大模型 Core 组全新发布的视觉语言旗舰模型，包括预训练模型 MiMo-VL-7B-SFT 和后训练模型MiMo-VL-7B-RL。MiMo-VL-7B 在图片、视频、语言的通用理解和问答任务上，大幅领先同尺寸标杆模型 Qwen2.5-VL-7B，并且在 GUI Grounding 任务上比肩专用模型 UI-TARS。同时，在多模态推理任务上，如奥林匹克竞赛（OlympiadBench）和多个数学竞赛（MathVision、MathVerse），MiMo-VL 仅用 7B 参数规模，大幅领先 10 倍参数的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview，也超越了闭源模型 GPT-4o。在 MiMo-VL 预训练阶段，我们精心构建了长推理数据合成管线，合成了大量高质量、广覆盖的长推理数据，大幅提升了模型的思考能力。在后训练阶段，我们实现了多任务混合强化学习，进一步提升模型推理、感知性能和用户体验。

论文地址

https://huggingface.co/papers/2506.03569

项目链接

https://github.com/XiaomiMiMo/MiMo-VL

模型链接：

https://modelscope.cn/models/XiaomiMiMo/MiMo-VL-7B-RL

评测框架

https://github.com/XiaomiMiMo/lmms-eval

No.3

强化学习范式 OREAL：超越蒸馏，推动轻中量级模型突破推理“三重门”困局

顾宇喆

上海人工智能实验室联培博士生，研究方向是大模型的可拓展监督技术，聚焦于知识和推理能力增强。已在 NeurIPS，ICLR，ACL 等国际顶级会议上发表多篇论文，谷歌学术引用量 600+，担任 NeurIPS 等顶级会议审稿人。其参与了“书生通用大模型体系”的构建与研发，作为核心成员开发了包括 InternLM、InternThinker 等项目。

简要概述

在数学推理方面，长期以来，大模型面临稀疏奖励困境、局部正确陷阱和规模依赖魔咒"三重门"困局。我们重新聚焦推理任务，设计出以正确样本模仿学习、错误样本偏好学习为核心的强化学习范式。实验结果表明，以 Qwen2.5-32B-Base 为基座模型，仅通过微调和基于结果反馈的强化学习，在不蒸馏超大模型的情况下，即实现在 MATH-500 数据集上的 SOTA 性能。

论文地址

https://huggingface.co/papers/2502.06781

项目链接

https://github.com/InternLM/OREAL

RL 训练数据链接

https://huggingface.co/datasets/internlm/OREAL-RL-Prompts

https://modelscope.cn/datasets/Shanghai_AI_Laboratory/OREAL-RL-Prompts

系列模型地址

https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018

https://modelscope.cn/models/Shanghai_AI_Laboratory/OREAL-7B

https://modelscope.cn/models/Shanghai_AI_Laboratory/OREAL-32B

No.4