OPPO联合港科大推出多模态推理优化框架 OThink-MR1:让AI学会『举一反三』,几何推理准确率暴增

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: OThink-MR1是OPPO与港科大联合研发的多模态优化框架,通过动态KL散度策略和奖励模型显著提升模型在视觉计数等复杂任务中的泛化能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎯 「多模态模型集体进化!这个国产框架让AI学会『举一反三』,几何推理准确率暴增」

大家好,我是蚝油菜花。当其他AI还在为「看图说话」绞尽脑汁时,OPPO和港科大已经教会模型「看图解题」了!你是否也遇到过这些AI视觉尴尬时刻——

  • 🔢 让AI数图中苹果数量,结果把影子也算进去
  • 📐 求解几何题时,模型突然把直径当半径计算
  • 🖼️ 跨任务测试时,训练过的模型秒变「人工智障」...

今天要解剖的 OThink-MR1 ,正在重写多模态推理规则!这个国产科研天团打造的「模型教练」,用三大绝技碾压传统方法:

  • 动态调参黑科技:像老司机换挡般自动平衡探索与利用
  • 奖励双保险机制:同时考核答案正确性和格式规范性
  • 跨任务通才培养:在视觉计数、几何推理等任务中实现知识迁移

已有团队用它将视觉问答准确率提升23%,文末附技术解析——你的多模态模型准备好接受「高考特训」了吗?

🚀 快速阅读

OThink-MR1是专为提升多模态模型推理能力设计的优化框架。

  1. 功能:通过动态强化学习策略显著提升视觉计数等任务的准确性和跨任务泛化能力
  2. 原理:采用GRPO-D算法动态调整KL散度权重,结合双维度奖励模型指导训练过程

OThink-MR1 是什么

OThink-MR1

OPPO研究院与香港科技大学(广州)联合推出的OThink-MR1,是专为多模态大模型设计的「推理加速器」。该框架通过创新性的动态优化策略,解决了传统方法在复杂视觉推理任务中泛化能力不足的核心痛点。

其核心技术GRPO-D算法模拟人类「先广撒网后精准突破」的学习策略,在训练初期鼓励模型大胆尝试多样化解题思路,随着训练深入逐步聚焦最优解决方案。实验证明,该方法在保持单任务高精度的同时,显著提升了模型处理未见过的多模态任务的能力。

OThink-MR1 的主要功能

  • 性能突破:在视觉计数任务中错误率降低37%,几何推理准确率提升29%
  • 智能迁移:仅需单任务训练即可适应5类不同模态任务,数据需求减少60%
  • 动态平衡:实时调整探索/利用权重,避免模型陷入局部最优解
  • 格式控制:通过奖励机制确保输出符合JSON等结构化格式要求

OThink-MR1 的技术原理

  • GRPO-D算法:基于KL散度的动态权重调节器,初期设置0.3权重鼓励探索,后期提升至0.7强化利用
  • 双维度奖励:验证准确性奖励(0-1分)与格式规范性奖励(0-0.5分)加权求和
  • 策略优化:采用近端策略优化(PPO)算法,每1000步更新一次策略网络参数

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

目录
打赏
0
20
20
0
380
分享
相关文章
模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作
UniRig是清华大学与VAST联合研发的自动骨骼绑定框架,基于自回归模型与交叉注意力机制,支持多样化3D模型的骨骼生成与蒙皮权重预测,其创新的骨骼树标记化技术显著提升动画制作效率。
163 27
模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。
136 6
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
谷歌开源多智能体开发框架 Agent Development Kit:百行代码构建复杂AI代理,覆盖整个开发周期!
谷歌开源的Agent Development Kit(ADK)是首个代码优先的Python工具包,通过多智能体架构和灵活编排系统,支持开发者在百行代码内构建复杂AI代理,提供预置工具库与动态工作流定义能力。
115 3
谷歌开源多智能体开发框架 Agent Development Kit:百行代码构建复杂AI代理,覆盖整个开发周期!
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
UNO是字节跳动开发的AI图像生成框架,通过渐进式跨模态对齐和通用旋转位置嵌入技术,解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成,在虚拟试穿、产品设计等领域展现强大泛化能力。
92 4
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
让AI绘画进入「指哪画哪」的精准时代!EasyControl:Tiamat AI 联合上海科大开源图像生成控制框架
EasyControl 是基于扩散变换器架构的高效灵活控制框架,通过轻量级条件注入模块实现多模态预训练支持,具备任意分辨率生成能力和显著优化的推理效率。
120 1
让AI绘画进入「指哪画哪」的精准时代!EasyControl:Tiamat AI 联合上海科大开源图像生成控制框架
面向 MoE 和推理模型时代:阿里云大数据 AI 产品升级发布
2025 AI 势能大会上,阿里云大数据 AI 平台持续创新,贴合 MoE 架构、Reasoning Model 、 Agentic RAG、MCP 等新趋势,带来计算范式变革。多款大数据及 AI 产品重磅升级,助力企业客户高效地构建 AI 模型并落地 AI 应用。
如何利用AI简历优化工具提升招聘效率?HR必读指南
本文为HR提供如何利用AI简历优化工具提升招聘效率的实用指南。针对海量简历筛选难题,AI工具通过自然语言处理技术实现信息提取与智能分析,大幅提高筛选效率和精准度。文章解析了工具在数据驱动决策、多语言支持及动态评估模型上的优势,并提出科学应用框架,如岗位画像量化、分阶段筛选策略等。同时探讨未来智能化招聘趋势,强调人机协同的重要性,助力HR将精力转向更具创造性的工作,推动人力资源管理体系全面升级。
医学AI推理新突破!MedReason:这个AI把医学论文变「会诊专家」,8B模型登顶临床问答基准
MedReason是由多国顶尖学术机构联合开发的医学推理框架,通过知识图谱增强大模型在医疗领域的逻辑推理能力,其8B参数模型在复杂临床场景中达到最先进水平。
94 18
医学AI推理新突破!MedReason:这个AI把医学论文变「会诊专家」,8B模型登顶临床问答基准
测试工程师要失业?Magnitude:开源AI Agent驱动的端到端测试框架,让Web测试更智能,自动完善测试用例!
Magnitude是一个基于视觉AI代理的开源端到端测试框架,通过自然语言构建测试用例,结合推理代理和视觉代理实现智能化的Web应用测试,支持本地运行和CI/CD集成。
110 15
测试工程师要失业?Magnitude:开源AI Agent驱动的端到端测试框架,让Web测试更智能,自动完善测试用例!
这个AI能把PSD变视频!人物/场景/道具任意组合!SkyReels-A2:昆仑万维推出的可控多元素视频生成框架
SkyReels-A2是昆仑万维推出的创新视频生成框架,通过扩散模型和图像-文本联合嵌入技术,实现多元素精准组合与高质量视频输出。
96 25

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等