HumanOmniV2 比你还懂“社交潜台词”!

简介: 如何让AI真正“读懂”人心?本文通过分析相亲对话案例,揭示当前多模态大模型在全局上下文理解和深度逻辑推理上的不足,并介绍全新模型HumanOmniV2的创新机制,如强制性上下文总结和多维度奖励机制,显著提升AI对人类复杂意图的理解能力。

如何让AI真正“读懂”人心,理解对话背后的真实意图?

先来查看下面这个案例⬇️


640 (63).jpg


在这张相亲对话截图中,暴露了多模态大模型(MLLMs)的两大认知错误:


1、全局上下文理解不足

  • 模型只听到了“可以做朋友”的表面善意,却完全忽略了“头巾=不是基督徒=不约会”这一核心的、隐含偏见的前提逻辑链。


2、推理路径简单,缺乏深度逻辑推理

  • 在判断男士情绪时,模型可能完全依赖了“可以做朋友”这句看似积极的话,忽视了潜在的视觉、听觉线索:男士可能出现的嘴角下垂/眼神回避、女士说"可能不行"后的3秒沉默、人类社交中的矛盾信号


这些缺陷导致模型无法全面捕捉隐藏在多模态信息中的深层逻辑从而做出片面甚至错误的判断。为了解决这些问题,我们推出了 HumanOmniV2 ,一个专为突破多模态推理瓶颈而设计的全新模型。(文末查看HumanOmniV2分析全流程)


640 - 2025-07-17T150450.125.png


HumanOmniV2 的一大核心创新在于引入了强制性上下文总结机制


在生成最终答案之前,模型必须首先输出一个<context>标签内的上下文概括。这种结构化的设计确保模型不会跳过任何关键信息,而是系统性地分析视觉、听觉和语言信号,构建出完整的场景背景。


为实现这一目标,我们要求模型在推理之前,首先在一个 <context> 标签内输出其对上下文信息的概括。这种强制性的上下文理解能够有效避免模型跳过关键的多模态输入信息,并在随后的推理过程中提供全面的全局背景支持。


例如,在上述相亲对话案例中,模型会主动识别出男士佩戴头巾这一视觉线索,并结合后续对话内容,推断出可能涉及的文化或宗教背景,从而避免因忽略隐含偏见而导致错误判断。


除了结构化的上下文理解,HumanOmniV2 还通过一套 LLM 驱动的多维度奖励机制来引导模型的学习过程。这套机制包括:

  • 上下文奖励(Context Reward):评估模型是否准确捕捉了多模态输入的整体语境;
  • 格式奖励(Format Reward):确保模型输出符合结构化要求;
  • 准确性奖励(Accuracy Reward):提升模型回答的正确率;
  • 逻辑奖励(Logical Reward):激励模型使用反思、归纳、演绎等高级推理方式。


这些奖励机制协同作用,使得 HumanOmniV2 在训练过程中不断优化其对多模态信息的理解能力,同时鼓励其发展出更复杂的推理路径。

640 (64).jpg

为了让模型具备更强的逻辑推理能力,我们在训练策略上也进行了深度优化。基于 Qwen2.5-Omni-Thinker 架构,我们对 GRPO(Group Relative Policy Optimization)方法进行了多项改进:

  • 引入令牌级损失(Token-level Loss),解决长序列训练中常见的不平衡问题;
  • 移除问题级归一化项 ,避免不同难度样本之间的权重偏差
  • 应用动态 KL 散度机制,在训练初期鼓励探索,在后期稳定收敛,全面提升模型的泛化能力训练稳定性


此外,我们还构建了一个高质量的全模态推理训练数据集,其中包含大量图像、视频和音频任务,并附带详细的上下文总结和推理路径标注。这些数据为模型的冷启动训练和强化学习阶段提供了坚实基础。


为了更准确地评估模型在理解人类意图方面的能力,我们推出了全新的评测基准——IntentBench 。该基准包含 633 个视频和 2689 个相关问题,紧密关联视频中的听觉和视觉线索,要求模型不仅要理解全局上下文,还需关注细致观察和复杂社会关系的推理。与以往侧重于感知层面的测试集(如 Daily-Omni 和 WorldSense)相比,IntentBench 更聚焦于评估 AI 对人类行为动机、情感状态和社会互动的深层理解能力。

640 - 2025-07-17T150517.884.png


为了验证 HumanOmniV2 在理解和推理人类复杂意图方面的能力,我们将其在多个主流全模态基准上进行了系统评估。结果显示,HumanOmniV2 在所有测试任务中均表现出色,尤其在新构建的 IntentBench 基准上取得了令人瞩目的成绩。

Daily-Omni 上,HumanOmniV2 达到了 58.47% 的准确率,在 WorldSense 上则达到了 47.1% ,而在我们全新推出的、更加注重“深层意图理解”的 IntentBench 上,模型更是取得了高达 69.33% 的准确率。


640 (65).jpg

640 (66).jpg

640 (67).jpg


这些性能提升,得益于我们在模型架构、训练策略以及数据构建上的多项创新设计。HumanOmniV2 通过引入强制上下文总结机制、LLM驱动的多维度奖励体系,以及基于 GRPO 的优化训练方法,在多模态推理方向上进行了有益探索。这一进展标志着 AI 在理解和建模人类复杂意图方面迈出关键一步,为后续研究与应用提供了重要参考。


现阶段 HumanOmniV2 已开源,如果你也对多模态推理感兴趣,欢迎前往以下链接查看论文、了解训练数据及原代码。


➡️ Github

➡️ Arxiv

➡️ ModelScope

➡️ HuggingFace

➡️ IntentBench



目录
打赏
0
0
0
0
945
分享
相关文章
阿里云轻量应用服务器套餐收费标准参考(组合套餐、负载均衡套餐等)
阿里云轻量应用服务器有多种套餐,在购买轻量应用服务器、轻量应用负载均衡、轻量容器服务和轻量数据库服务时,我们可以根据业务需求选择合适的套餐。本文为大家介绍阿里云轻量应用服务器套餐和镜像最新价格表以及相关收费说明。
922 0
阿里云轻量应用服务器套餐收费标准参考(组合套餐、负载均衡套餐等)
【Ubuntu系统内核更新与卸载】
【Ubuntu系统内核更新与卸载】
963 0
Jina Embeddings V4: 为搜索而生,多模态多语言向量模型
近日,Jina AI 正式发布 jina-embeddings-v4,一款全新的多模态向量模型,参数规模达到 38 亿,并首次实现了对文本与图像的同步处理。
207 2
Nginx-性能优化-ab压力测试工具
章节目录 nginx 性能优化的点 当前系统性能的评估 ab 压力测试工具使用 1.nginx 性能优化的点 当前系统结构瓶颈 可用方案:观察指标-top、压力测试-substatus、线上系统可以支撑的并发。
2394 0
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
SurveyGO是清华与面壁智能联合开源的AI论文写作工具,采用LLMxMapReduce-V2技术实现文献智能聚合,能根据用户输入主题快速生成结构严谨、引用可靠的学术综述。
582 1
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
阿里通义开源全模态大语言模型 R1-Omni:情感分析成绩新标杆!推理过程全程透明,准确率飙升200%
R1-Omni 是阿里通义开源的全模态大语言模型,专注于情感识别任务,结合视觉和音频信息,提供可解释的推理过程,显著提升情感识别的准确性和泛化能力。
681 10
阿里通义开源全模态大语言模型 R1-Omni:情感分析成绩新标杆!推理过程全程透明,准确率飙升200%
使用Python实现深度学习模型:智能城市噪音监测与控制
使用Python实现深度学习模型:智能城市噪音监测与控制
328 1
Logic-RL: 小模型也能强推理,通过基于规则的强化学习提升大语言模型结构化推理能力
这篇论文探讨了基于规则的强化学习(RL)如何提升大型语言模型(LLM)的高级推理能力。通过在程序生成的逻辑谜题上训练并强制执行结构化思考,即使是较小的模型也能开发出可转移的问题解决策略。研究引入了多层次奖励系统,包括格式、答案、推理一致性和反思奖励,以引导模型形成严谨的推理过程。实验结果表明,这种方法不仅提高了模型在逻辑任务上的性能,还在数学问题解决、代码调试等领域展现出显著的泛化能力。此外,该方法在较小模型上实现了与大模型相当甚至更优的推理表现,为资源受限环境下的高效推理提供了新途径。
540 0
Logic-RL: 小模型也能强推理,通过基于规则的强化学习提升大语言模型结构化推理能力
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问