HumanOmniV2 比你还懂“社交潜台词”!

简介: 如何让AI真正“读懂”人心?本文通过分析相亲对话案例,揭示当前多模态大模型在全局上下文理解和深度逻辑推理上的不足,并介绍全新模型HumanOmniV2的创新机制,如强制性上下文总结和多维度奖励机制,显著提升AI对人类复杂意图的理解能力。

如何让AI真正“读懂”人心,理解对话背后的真实意图?

先来查看下面这个案例⬇️


640 (63).jpg


在这张相亲对话截图中,暴露了多模态大模型(MLLMs)的两大认知错误:


1、全局上下文理解不足

  • 模型只听到了“可以做朋友”的表面善意,却完全忽略了“头巾=不是基督徒=不约会”这一核心的、隐含偏见的前提逻辑链。


2、推理路径简单,缺乏深度逻辑推理

  • 在判断男士情绪时,模型可能完全依赖了“可以做朋友”这句看似积极的话,忽视了潜在的视觉、听觉线索:男士可能出现的嘴角下垂/眼神回避、女士说"可能不行"后的3秒沉默、人类社交中的矛盾信号


这些缺陷导致模型无法全面捕捉隐藏在多模态信息中的深层逻辑从而做出片面甚至错误的判断。为了解决这些问题,我们推出了 HumanOmniV2 ,一个专为突破多模态推理瓶颈而设计的全新模型。(文末查看HumanOmniV2分析全流程)


640 - 2025-07-17T150450.125.png


HumanOmniV2 的一大核心创新在于引入了强制性上下文总结机制


在生成最终答案之前,模型必须首先输出一个<context>标签内的上下文概括。这种结构化的设计确保模型不会跳过任何关键信息,而是系统性地分析视觉、听觉和语言信号,构建出完整的场景背景。


为实现这一目标,我们要求模型在推理之前,首先在一个 <context> 标签内输出其对上下文信息的概括。这种强制性的上下文理解能够有效避免模型跳过关键的多模态输入信息,并在随后的推理过程中提供全面的全局背景支持。


例如,在上述相亲对话案例中,模型会主动识别出男士佩戴头巾这一视觉线索,并结合后续对话内容,推断出可能涉及的文化或宗教背景,从而避免因忽略隐含偏见而导致错误判断。


除了结构化的上下文理解,HumanOmniV2 还通过一套 LLM 驱动的多维度奖励机制来引导模型的学习过程。这套机制包括:

  • 上下文奖励(Context Reward):评估模型是否准确捕捉了多模态输入的整体语境;
  • 格式奖励(Format Reward):确保模型输出符合结构化要求;
  • 准确性奖励(Accuracy Reward):提升模型回答的正确率;
  • 逻辑奖励(Logical Reward):激励模型使用反思、归纳、演绎等高级推理方式。


这些奖励机制协同作用,使得 HumanOmniV2 在训练过程中不断优化其对多模态信息的理解能力,同时鼓励其发展出更复杂的推理路径。

640 (64).jpg

为了让模型具备更强的逻辑推理能力,我们在训练策略上也进行了深度优化。基于 Qwen2.5-Omni-Thinker 架构,我们对 GRPO(Group Relative Policy Optimization)方法进行了多项改进:

  • 引入令牌级损失(Token-level Loss),解决长序列训练中常见的不平衡问题;
  • 移除问题级归一化项 ,避免不同难度样本之间的权重偏差
  • 应用动态 KL 散度机制,在训练初期鼓励探索,在后期稳定收敛,全面提升模型的泛化能力训练稳定性


此外,我们还构建了一个高质量的全模态推理训练数据集,其中包含大量图像、视频和音频任务,并附带详细的上下文总结和推理路径标注。这些数据为模型的冷启动训练和强化学习阶段提供了坚实基础。


为了更准确地评估模型在理解人类意图方面的能力,我们推出了全新的评测基准——IntentBench 。该基准包含 633 个视频和 2689 个相关问题,紧密关联视频中的听觉和视觉线索,要求模型不仅要理解全局上下文,还需关注细致观察和复杂社会关系的推理。与以往侧重于感知层面的测试集(如 Daily-Omni 和 WorldSense)相比,IntentBench 更聚焦于评估 AI 对人类行为动机、情感状态和社会互动的深层理解能力。

640 - 2025-07-17T150517.884.png


为了验证 HumanOmniV2 在理解和推理人类复杂意图方面的能力,我们将其在多个主流全模态基准上进行了系统评估。结果显示,HumanOmniV2 在所有测试任务中均表现出色,尤其在新构建的 IntentBench 基准上取得了令人瞩目的成绩。

Daily-Omni 上,HumanOmniV2 达到了 58.47% 的准确率,在 WorldSense 上则达到了 47.1% ,而在我们全新推出的、更加注重“深层意图理解”的 IntentBench 上,模型更是取得了高达 69.33% 的准确率。


640 (65).jpg

640 (66).jpg

640 (67).jpg


这些性能提升,得益于我们在模型架构、训练策略以及数据构建上的多项创新设计。HumanOmniV2 通过引入强制上下文总结机制、LLM驱动的多维度奖励体系,以及基于 GRPO 的优化训练方法,在多模态推理方向上进行了有益探索。这一进展标志着 AI 在理解和建模人类复杂意图方面迈出关键一步,为后续研究与应用提供了重要参考。


现阶段 HumanOmniV2 已开源,如果你也对多模态推理感兴趣,欢迎前往以下链接查看论文、了解训练数据及原代码。


➡️ Github

➡️ Arxiv

➡️ ModelScope

➡️ HuggingFace

➡️ IntentBench



相关文章
|
4月前
|
机器学习/深度学习 弹性计算 测试技术
Kimi Playground与ModelScope MCP合作,共建更智能的Agent
月之暗面发布开源模型Kimi K2,参数总量达1T,激活参数32B,基于MoE架构,具备强大的代码能力与通用Agent任务处理能力。在多项基准测试中取得SOTA成绩,并已开源。ModelScope与Kimi Playground集成,支持一键同步MCP服务,方便开发者使用。
317 0
|
负载均衡 Linux 数据库
阿里云轻量应用服务器套餐收费标准参考(组合套餐、负载均衡套餐等)
阿里云轻量应用服务器有多种套餐,在购买轻量应用服务器、轻量应用负载均衡、轻量容器服务和轻量数据库服务时,我们可以根据业务需求选择合适的套餐。本文为大家介绍阿里云轻量应用服务器套餐和镜像最新价格表以及相关收费说明。
1028 0
阿里云轻量应用服务器套餐收费标准参考(组合套餐、负载均衡套餐等)
|
Ubuntu Linux
【Ubuntu系统内核更新与卸载】
【Ubuntu系统内核更新与卸载】
1107 0
|
8月前
|
机器学习/深度学习 人工智能 监控
阿里通义开源全模态大语言模型 R1-Omni:情感分析成绩新标杆!推理过程全程透明,准确率飙升200%
R1-Omni 是阿里通义开源的全模态大语言模型,专注于情感识别任务,结合视觉和音频信息,提供可解释的推理过程,显著提升情感识别的准确性和泛化能力。
1197 10
阿里通义开源全模态大语言模型 R1-Omni:情感分析成绩新标杆!推理过程全程透明,准确率飙升200%
|
4月前
|
自然语言处理 API 语音技术
是时候说点方言了,Qwen-TTS上新!
Qwen-TTS更新支持北京话、上海话和四川话三种中文方言,新增七种中英双语音色。模型基于超300万小时语料训练,合成语音自然流畅,可自动调整韵律与情绪。用户可通过Qwen API便捷调用,体验多语言、多风格的高质量语音生成服务。
997 1
|
3月前
|
数据采集 人工智能 数据可视化
GitHub 15.8k star 狂涨 DeerFlow,AI + 搜索 + 报告输出一次搞定!
DeerFlow 是字节跳动开源的深度研究框架,集成语言模型、搜索爬虫与代码执行工具,支持自动化完成复杂研究任务并生成多模态报告。具备多智能体协作、强搜索能力、Python 数据分析及可视化、报告自动生成等功能,适用于学术研究、内容创作与企业分析,部署灵活,社区活跃。
356 2
|
4月前
|
人工智能 自然语言处理 物联网
Jina Embeddings V4: 为搜索而生,多模态多语言向量模型
近日,Jina AI 正式发布 jina-embeddings-v4,一款全新的多模态向量模型,参数规模达到 38 亿,并首次实现了对文本与图像的同步处理。
663 2
|
4月前
|
人工智能 算法 API
AutoGPT vs BabyAGI:自主任务执行框架对比与选型深度分析
在众多涌现的自主代理框架中,AutoGPT和BabyAGI无疑是最具代表性的两个项目。AutoGPT凭借其强大的任务分解能力和丰富的工具集成,在GitHub上获得了超过150k的星标;而BabyAGI则以其简洁优雅的架构设计和高效的任务执行循环,成为了许多开发者的首选框架。这两个项目的出现,标志着AI自主代理技术从理论研究走向了工程实践的重要转折点。
253 0
AutoGPT vs BabyAGI:自主任务执行框架对比与选型深度分析
|
编解码 安全 Linux
网络空间安全之一个WH的超前沿全栈技术深入学习之路(10-2):保姆级别教会你如何搭建白帽黑客渗透测试系统环境Kali——Liinux-Debian:就怕你学成黑客啦!)作者——LJS
保姆级别教会你如何搭建白帽黑客渗透测试系统环境Kali以及常见的报错及对应解决方案、常用Kali功能简便化以及详解如何具体实现

热门文章

最新文章