在知识爆炸、信息过载的时代,如何洞悉 AI 领域前沿趋势?OpenMMLab 联合 Hugging Face、ModelScope、知乎及机智流等重磅推出 AI Insight Talk,邀请「强化学习(RL)」「多模态」「AI4S」「Agent」「AI Infra」等领域的前沿项目作者,分享最新突破与深刻洞见,为开源社区持续呈献系列高价值专题盛会!
首场 AI Insight Talk——Hugging Face Papers Live RL 强化学习专场将于北京时间 6 月 14 日(周六)上午 10 点盛大开启,欢迎点击下方按钮预约直播。
魔搭ModelScope社区
分享嘉宾及主题介绍
No.1
零人工数据强化学习推理模型
赵启晨
清华大学自动化系博士生四年级,研究方向是强化学习以及推理模型,其研究成果涉及大语言模型后训练、应用等多个方面。目前发表/在投 15 篇论文,其中多数发表在 NIPS、AAAI、ACL 等顶级会议上、长期担任 NIPS、ICLR、ICML 等顶会审稿人。在 GitHub 上共获得 1500 个 stars,并且被国内外知名机构使用。
简要概述
我们提出了一种全新的强化学习方法——Absolute Zero,它让语言模型在没有任何外部数据的情况下,自主提出学习任务并通过解决这些任务来提升推理能力。这种方法不再依赖人工制作的大量题目和答案,而是通过环境来验证任务和答案的正确性,从而提供可靠的学习反馈。我们设计的系统 Absolute Zero Reasoner 可以自主进化自己的训练内容和推理能力。尽管 AZR 完全没有使用外部数据,它在编程和数学推理任务上仍然达到了当前最先进的性能,超过了那些依赖大量人工数据的模型。我们还发现 AZR 适用于不同规模和类型的模型,具有良好的通用性和可扩展性。
论文地址
https://huggingface.co/papers/2505.03335
模型链接:
https://modelscope.cn/models/bartowski/andrewzh_Absolute_Zero_Reasoner-Coder-14b-GGUF
项目链接
https://github.com/LeapLabTHU/Absolute-Zero-Reasoner
No.2
小米 MiMo-VL 预训练及后训练技术分享
任抒怀
北京大学计算机学院博士生五年级,研究方向为多模态基座模型、理解生成统一等。目前已在 CVPR,ACL,NeurIPS 等国际顶级会议上以第一作者身份发表多篇论文。谷歌学术引用超过 2300。获国家奖学金、北京大学优秀毕业生、NeurIPS scholar、ACL 杰出审稿人等称号。
简要概述
MiMo-VL 是小米大模型 Core 组全新发布的视觉语言旗舰模型,包括预训练模型 MiMo-VL-7B-SFT 和后训练模型MiMo-VL-7B-RL。MiMo-VL-7B 在图片、视频、语言的通用理解和问答任务上,大幅领先同尺寸标杆模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任务上比肩专用模型 UI-TARS。同时,在多模态推理任务上,如奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse),MiMo-VL 仅用 7B 参数规模,大幅领先 10 倍参数的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越了闭源模型 GPT-4o。在 MiMo-VL 预训练阶段,我们精心构建了长推理数据合成管线,合成了大量高质量、广覆盖的长推理数据,大幅提升了模型的思考能力。在后训练阶段,我们实现了多任务混合强化学习,进一步提升模型推理、感知性能和用户体验。
论文地址
https://huggingface.co/papers/2506.03569
项目链接
https://github.com/XiaomiMiMo/MiMo-VL
模型链接:
https://modelscope.cn/models/XiaomiMiMo/MiMo-VL-7B-RL
评测框架
https://github.com/XiaomiMiMo/lmms-eval
No.3
强化学习范式 OREAL:超越蒸馏,推动轻中量级模型突破推理“三重门”困局
顾宇喆
上海人工智能实验室联培博士生,研究方向是大模型的可拓展监督技术,聚焦于知识和推理能力增强。已在 NeurIPS,ICLR,ACL 等国际顶级会议上发表多篇论文,谷歌学术引用量 600+,担任 NeurIPS 等顶级会议审稿人。其参与了“书生通用大模型体系”的构建与研发,作为核心成员开发了包括 InternLM、InternThinker 等项目。
简要概述
在数学推理方面,长期以来,大模型面临稀疏奖励困境、局部正确陷阱和规模依赖魔咒"三重门"困局。我们重新聚焦推理任务,设计出以正确样本模仿学习、错误样本偏好学习为核心的强化学习范式。实验结果表明,以 Qwen2.5-32B-Base 为基座模型,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型的情况下,即实现在 MATH-500 数据集上的 SOTA 性能。
论文地址
https://huggingface.co/papers/2502.06781
项目链接
https://github.com/InternLM/OREAL
RL 训练数据链接
https://huggingface.co/datasets/internlm/OREAL-RL-Prompts
https://modelscope.cn/datasets/Shanghai_AI_Laboratory/OREAL-RL-Prompts
系列模型地址
https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018
https://modelscope.cn/models/Shanghai_AI_Laboratory/OREAL-7B
https://modelscope.cn/models/Shanghai_AI_Laboratory/OREAL-32B
No.4
圆桌讨论环节
讨论主题:RL 强化学习发展趋势洞见
欢迎在公众号评论区留下您对 RL 强化学习趋势的疑问或期待,直播当天,主持人将精选问题与嘉宾深入互动,带来最前沿的洞见!
参与方式
观看直播
魔搭ModelScope社区
参与讨论
同时为了方便大家交流沟通,我们建立了相关的交流群,本期分享的大佬也在群里哦,可与大佬进行面对面沟通 ,扫码即可入群~
期待与您相约 6 月 14 日(周六)上午 10 点 的 AI Insight Talk:Hugging Face Papers Live RL 强化学习专场,一起探索前沿科技,共享 AI 盛宴!