❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
🎯 「多模态模型集体进化!这个国产框架让AI学会『举一反三』,几何推理准确率暴增」
大家好,我是蚝油菜花。当其他AI还在为「看图说话」绞尽脑汁时,OPPO和港科大已经教会模型「看图解题」了!你是否也遇到过这些AI视觉尴尬时刻——
- 🔢 让AI数图中苹果数量,结果把影子也算进去
- 📐 求解几何题时,模型突然把直径当半径计算
- 🖼️ 跨任务测试时,训练过的模型秒变「人工智障」...
今天要解剖的 OThink-MR1 ,正在重写多模态推理规则!这个国产科研天团打造的「模型教练」,用三大绝技碾压传统方法:
- ✅ 动态调参黑科技:像老司机换挡般自动平衡探索与利用
- ✅ 奖励双保险机制:同时考核答案正确性和格式规范性
- ✅ 跨任务通才培养:在视觉计数、几何推理等任务中实现知识迁移
已有团队用它将视觉问答准确率提升23%,文末附技术解析——你的多模态模型准备好接受「高考特训」了吗?
🚀 快速阅读
OThink-MR1是专为提升多模态模型推理能力设计的优化框架。
- 功能:通过动态强化学习策略显著提升视觉计数等任务的准确性和跨任务泛化能力
- 原理:采用GRPO-D算法动态调整KL散度权重,结合双维度奖励模型指导训练过程
OThink-MR1 是什么
OPPO研究院与香港科技大学(广州)联合推出的OThink-MR1,是专为多模态大模型设计的「推理加速器」。该框架通过创新性的动态优化策略,解决了传统方法在复杂视觉推理任务中泛化能力不足的核心痛点。
其核心技术GRPO-D算法模拟人类「先广撒网后精准突破」的学习策略,在训练初期鼓励模型大胆尝试多样化解题思路,随着训练深入逐步聚焦最优解决方案。实验证明,该方法在保持单任务高精度的同时,显著提升了模型处理未见过的多模态任务的能力。
OThink-MR1 的主要功能
- 性能突破:在视觉计数任务中错误率降低37%,几何推理准确率提升29%
- 智能迁移:仅需单任务训练即可适应5类不同模态任务,数据需求减少60%
- 动态平衡:实时调整探索/利用权重,避免模型陷入局部最优解
- 格式控制:通过奖励机制确保输出符合JSON等结构化格式要求
OThink-MR1 的技术原理
- GRPO-D算法:基于KL散度的动态权重调节器,初期设置0.3权重鼓励探索,后期提升至0.7强化利用
- 双维度奖励:验证准确性奖励(0-1分)与格式规范性奖励(0-0.5分)加权求和
- 策略优化:采用近端策略优化(PPO)算法,每1000步更新一次策略网络参数
资源
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦