HumanOmniV2模型通过创新机制实现多模态深度意图理解-开发者社区-阿里云

HumanOmniV2 比你还懂“社交潜台词”！

2025-07-17 164

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 如何让AI真正“读懂”人心？本文通过分析相亲对话案例，揭示当前多模态大模型在全局上下文理解和深度逻辑推理上的不足，并介绍全新模型HumanOmniV2的创新机制，如强制性上下文总结和多维度奖励机制，显著提升AI对人类复杂意图的理解能力。

如何让AI真正“读懂”人心，理解对话背后的真实意图？

先来查看下面这个案例⬇️

640 (63).jpg

在这张相亲对话截图中，暴露了多模态大模型（MLLMs）的两大认知错误：

1、全局上下文理解不足

模型只听到了“可以做朋友”的表面善意，却完全忽略了“头巾=不是基督徒=不约会”这一核心的、隐含偏见的前提逻辑链。

2、推理路径简单，缺乏深度逻辑推理

在判断男士情绪时，模型可能完全依赖了“可以做朋友”这句看似积极的话，忽视了潜在的视觉、听觉线索：男士可能出现的嘴角下垂/眼神回避、女士说"可能不行"后的3秒沉默、人类社交中的矛盾信号。

这些缺陷导致模型无法全面捕捉隐藏在多模态信息中的深层逻辑，从而做出片面甚至错误的判断。为了解决这些问题，我们推出了 HumanOmniV2 ，一个专为突破多模态推理瓶颈而设计的全新模型。（文末查看HumanOmniV2分析全流程）

640 - 2025-07-17T150450.125.png

HumanOmniV2 的一大核心创新在于引入了强制性上下文总结机制。

在生成最终答案之前，模型必须首先输出一个<context>标签内的上下文概括。这种结构化的设计确保模型不会跳过任何关键信息，而是系统性地分析视觉、听觉和语言信号，构建出完整的场景背景。

为实现这一目标，我们要求模型在推理之前，首先在一个 <context> 标签内输出其对上下文信息的概括。这种强制性的上下文理解能够有效避免模型跳过关键的多模态输入信息，并在随后的推理过程中提供全面的全局背景支持。

例如，在上述相亲对话案例中，模型会主动识别出男士佩戴头巾这一视觉线索，并结合后续对话内容，推断出可能涉及的文化或宗教背景，从而避免因忽略隐含偏见而导致错误判断。

除了结构化的上下文理解，HumanOmniV2 还通过一套 LLM 驱动的多维度奖励机制来引导模型的学习过程。这套机制包括：

上下文奖励（Context Reward）：评估模型是否准确捕捉了多模态输入的整体语境；
格式奖励（Format Reward）：确保模型输出符合结构化要求；
准确性奖励（Accuracy Reward）：提升模型回答的正确率；
逻辑奖励（Logical Reward）：激励模型使用反思、归纳、演绎等高级推理方式。

这些奖励机制协同作用，使得 HumanOmniV2 在训练过程中不断优化其对多模态信息的理解能力，同时鼓励其发展出更复杂的推理路径。

640 (64).jpg

为了让模型具备更强的逻辑推理能力，我们在训练策略上也进行了深度优化。基于 Qwen2.5-Omni-Thinker 架构，我们对 GRPO（Group Relative Policy Optimization）方法进行了多项改进：

引入令牌级损失（Token-level Loss），解决长序列训练中常见的不平衡问题；
移除问题级归一化项，避免不同难度样本之间的权重偏差；
应用动态 KL 散度机制，在训练初期鼓励探索，在后期稳定收敛，全面提升模型的泛化能力和训练稳定性。

此外，我们还构建了一个高质量的全模态推理训练数据集，其中包含大量图像、视频和音频任务，并附带详细的上下文总结和推理路径标注。这些数据为模型的冷启动训练和强化学习阶段提供了坚实基础。

为了更准确地评估模型在理解人类意图方面的能力，我们推出了全新的评测基准——IntentBench 。该基准包含 633 个视频和 2689 个相关问题，紧密关联视频中的听觉和视觉线索，要求模型不仅要理解全局上下文，还需关注细致观察和复杂社会关系的推理。与以往侧重于感知层面的测试集（如 Daily-Omni 和 WorldSense）相比，IntentBench 更聚焦于评估 AI 对人类行为动机、情感状态和社会互动的深层理解能力。

640 - 2025-07-17T150517.884.png

为了验证 HumanOmniV2 在理解和推理人类复杂意图方面的能力，我们将其在多个主流全模态基准上进行了系统评估。结果显示，HumanOmniV2 在所有测试任务中均表现出色，尤其在新构建的 IntentBench 基准上取得了令人瞩目的成绩。

在 Daily-Omni 上，HumanOmniV2 达到了 58.47% 的准确率，在 WorldSense 上则达到了 47.1% ，而在我们全新推出的、更加注重“深层意图理解”的 IntentBench 上，模型更是取得了高达 69.33% 的准确率。

640 (65).jpg

640 (66).jpg

640 (67).jpg

这些性能提升，得益于我们在模型架构、训练策略以及数据构建上的多项创新设计。HumanOmniV2 通过引入强制上下文总结机制、LLM驱动的多维度奖励体系，以及基于 GRPO 的优化训练方法，在多模态推理方向上进行了有益探索。这一进展标志着 AI 在理解和建模人类复杂意图方面迈出关键一步，为后续研究与应用提供了重要参考。

现阶段 HumanOmniV2 已开源，如果你也对多模态推理感兴趣，欢迎前往以下链接查看论文、了解训练数据及原代码。

➡️ Github

➡️ Arxiv

➡️ ModelScope

➡️ HuggingFace

➡️ IntentBench