直击强化学习前沿,RL专场来袭丨AI Insight Talk直播预告

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 在知识爆炸、信息过载的时代,如何洞悉 AI 领域前沿趋势?OpenMMLab 联合 Hugging Face、ModelScope、知乎及机智流等重磅推出 AI Insight Talk

在知识爆炸、信息过载的时代,如何洞悉 AI 领域前沿趋势?OpenMMLab 联合 Hugging Face、ModelScope、知乎及机智流等重磅推出 AI Insight Talk,邀请「强化学习(RL)」「多模态」「AI4S」「Agent」「AI Infra」等领域的前沿项目作者,分享最新突破与深刻洞见,为开源社区持续呈献系列高价值专题盛会!

首场 AI Insight Talk——Hugging Face Papers Live RL 强化学习专场将于北京时间 6 月 14 日(周六)上午 10 点盛大开启,欢迎点击下方按钮预约直播。

 

魔搭ModelScope社区

 

分享嘉宾及主题介绍

No.1

零人工数据强化学习推理模型


赵启晨

清华大学自动化系博士生四年级,研究方向是强化学习以及推理模型,其研究成果涉及大语言模型后训练、应用等多个方面。目前发表/在投 15 篇论文,其中多数发表在 NIPS、AAAI、ACL 等顶级会议上、长期担任 NIPS、ICLR、ICML 等顶会审稿人。在 GitHub 上共获得 1500 个 stars,并且被国内外知名机构使用。

简要概述

我们提出了一种全新的强化学习方法——Absolute Zero,它让语言模型在没有任何外部数据的情况下,自主提出学习任务并通过解决这些任务来提升推理能力。这种方法不再依赖人工制作的大量题目和答案,而是通过环境来验证任务和答案的正确性,从而提供可靠的学习反馈。我们设计的系统 Absolute Zero Reasoner 可以自主进化自己的训练内容和推理能力。尽管 AZR 完全没有使用外部数据,它在编程和数学推理任务上仍然达到了当前最先进的性能,超过了那些依赖大量人工数据的模型。我们还发现 AZR 适用于不同规模和类型的模型,具有良好的通用性和可扩展性。

 

论文地址

https://huggingface.co/papers/2505.03335

模型链接:

https://modelscope.cn/models/bartowski/andrewzh_Absolute_Zero_Reasoner-Coder-14b-GGUF

项目链接

https://github.com/LeapLabTHU/Absolute-Zero-Reasoner

No.2

小米 MiMo-VL 预训练及后训练技术分享


任抒怀

北京大学计算机学院博士生五年级,研究方向为多模态基座模型、理解生成统一等。目前已在 CVPR,ACL,NeurIPS 等国际顶级会议上以第一作者身份发表多篇论文。谷歌学术引用超过 2300。获国家奖学金、北京大学优秀毕业生、NeurIPS scholar、ACL 杰出审稿人等称号。

简要概述

MiMo-VL 是小米大模型 Core 组全新发布的视觉语言旗舰模型,包括预训练模型 MiMo-VL-7B-SFT 和后训练模型MiMo-VL-7B-RL。MiMo-VL-7B 在图片、视频、语言的通用理解和问答任务上,大幅领先同尺寸标杆模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任务上比肩专用模型 UI-TARS。同时,在多模态推理任务上,如奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse),MiMo-VL 仅用 7B 参数规模,大幅领先 10 倍参数的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越了闭源模型 GPT-4o。在 MiMo-VL 预训练阶段,我们精心构建了长推理数据合成管线,合成了大量高质量、广覆盖的长推理数据,大幅提升了模型的思考能力。在后训练阶段,我们实现了多任务混合强化学习,进一步提升模型推理、感知性能和用户体验。

论文地址

https://huggingface.co/papers/2506.03569

项目链接

https://github.com/XiaomiMiMo/MiMo-VL

模型链接:

https://modelscope.cn/models/XiaomiMiMo/MiMo-VL-7B-RL

 

评测框架

https://github.com/XiaomiMiMo/lmms-eval

No.3

强化学习范式 OREAL:超越蒸馏,推动轻中量级模型突破推理“三重门”困局


顾宇喆

上海人工智能实验室联培博士生,研究方向是大模型的可拓展监督技术,聚焦于知识和推理能力增强。已在 NeurIPS,ICLR,ACL 等国际顶级会议上发表多篇论文,谷歌学术引用量 600+,担任 NeurIPS 等顶级会议审稿人。其参与了“书生通用大模型体系”的构建与研发,作为核心成员开发了包括 InternLM、InternThinker 等项目。

简要概述

在数学推理方面,长期以来,大模型面临稀疏奖励困境、局部正确陷阱和规模依赖魔咒"三重门"困局。我们重新聚焦推理任务,设计出以正确样本模仿学习、错误样本偏好学习为核心的强化学习范式。实验结果表明,以 Qwen2.5-32B-Base 为基座模型,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型的情况下,即实现在 MATH-500 数据集上的 SOTA 性能。

 

论文地址

https://huggingface.co/papers/2502.06781

 

项目链接

https://github.com/InternLM/OREAL

RL 训练数据链接

https://huggingface.co/datasets/internlm/OREAL-RL-Prompts

https://modelscope.cn/datasets/Shanghai_AI_Laboratory/OREAL-RL-Prompts

 

系列模型地址

https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018

https://modelscope.cn/models/Shanghai_AI_Laboratory/OREAL-7B

https://modelscope.cn/models/Shanghai_AI_Laboratory/OREAL-32B

No.4

圆桌讨论环节

讨论主题:RL 强化学习发展趋势洞见

 

欢迎在公众号评论区留下您对 RL 强化学习趋势的疑问或期待,直播当天,主持人将精选问题与嘉宾深入互动,带来最前沿的洞见!

参与方式

观看直播

 

 

魔搭ModelScope社区

参与讨论

同时为了方便大家交流沟通,我们建立了相关的交流群,本期分享的大佬也在群里哦,可与大佬进行面对面沟通 ,扫码即可入群~


期待与您相约 6 月 14 日(周六)上午 10 点 的 AI Insight Talk:Hugging Face Papers Live RL 强化学习专场,一起探索前沿科技,共享 AI 盛宴!

image.gif

目录
相关文章
|
14天前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
114 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
2月前
|
机器学习/深度学习 人工智能 算法
深度强化学习在异构环境中AI Agent行为泛化能力研究
随着人工智能技术的迅猛发展,AI Agent 在游戏、智能制造、自动驾驶等场景中已逐步展现出强大的自适应能力。特别是深度强化学习(Deep Reinforcement Learning, DRL)的引入,使得智能体能够通过与环境的交互,自动学习最优的行为策略。本文将系统性地探讨基于深度强化学习的AI Agent行为决策机制,并结合代码实战加以说明。
深度强化学习在异构环境中AI Agent行为泛化能力研究
|
2月前
|
机器学习/深度学习 人工智能 算法
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
QwQ-32B为襄阳职业技术学院拥抱强化学习的AI力量
信息技术学院大数据专业学生团队与UNHub平台合作,利用QwQ-32B模型开启AI教育新范式。通过强化学习驱动,构建职业教育智能化实践平台,支持从算法开发到应用的全链路教学。QwQ-32B具备320亿参数,优化数学、编程及复杂逻辑任务处理能力,提供智能教学助手、科研加速器和产教融合桥梁等应用场景,推动职业教育模式创新。项目已进入关键训练阶段,计划于2025年夏季上线公测。
214 10
QwQ-32B为襄阳职业技术学院拥抱强化学习的AI力量
|
10月前
|
机器学习/深度学习 人工智能 算法
强化学习在游戏AI中的应用,从基本原理、优势、应用场景到具体实现方法,以及Python在其中的作用
本文探讨了强化学习在游戏AI中的应用,从基本原理、优势、应用场景到具体实现方法,以及Python在其中的作用,通过案例分析展示了其潜力,并讨论了面临的挑战及未来发展趋势。强化学习正为游戏AI带来新的可能性。
767 4
|
11月前
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
1383 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
|
Java Spring Apache
Spring Boot邂逅Apache Wicket:一次意想不到的完美邂逅,竟让Web开发变得如此简单?
【8月更文挑战第31天】Apache Wicket与Spring Boot的集成提供了近乎无缝的开发体验。Wicket以其简洁的API和强大的组件化设计著称,而Spring Boot则以开箱即用的便捷性赢得开发者青睐。本文将指导你如何在Spring Boot项目中引入Wicket,通过简单的步骤完成集成配置。首先,创建一个新的Spring Boot项目并在`pom.xml`中添加Wicket相关依赖。
266 0
|
机器学习/深度学习 人工智能 算法
深入探索TensorFlow在强化学习中的应用:从理论到实践构建智能游戏AI代理
【8月更文挑战第31天】强化学习作为人工智能的一个重要分支,通过智能体与环境的互动,在不断试错中学习达成目标。本文介绍如何利用TensorFlow构建高效的强化学习模型,并应用于游戏AI。智能体通过执行动作获得奖励或惩罚,旨在最大化长期累积奖励。TensorFlow提供的强大工具简化了复杂模型的搭建与训练,尤其适用于处理高维数据。通过示例代码展示如何创建并训练一个简单的CartPole游戏AI,证明了该方法的有效性。未来,这项技术有望拓展至更复杂的应用场景中。
163 0
|
机器学习/深度学习 人工智能 自动驾驶
【AI 初识】强化学习是如何工作
【5月更文挑战第3天】【AI 初识】强化学习是如何工作
|
机器学习/深度学习 人工智能 运维
【AI 初识】监督学习、无监督学习和强化学习定义
【5月更文挑战第2天】【AI 初识】监督学习、无监督学习和强化学习定义

热门文章

最新文章