NeurIPS 2025|让AI读懂第一视角的“内心独白”!浙大等联合突破性实现自我中心视频推理

简介: 浙大等提出EgoThinker,首创支持第一视角视频推理的AI模型。构建500万问答对数据集EgoRe-5M,结合思维链与手物交互标注,通过两阶段训练提升时空定位与长时序因果推理能力,在多项基准超越现有模型,推动可穿戴助手与具身智能发展。

NeurIPS 2025|让AI读懂第一视角的“内心独白”!浙大等联合突破性实现自我中心视频推理

论文名称:EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT

发布时间:2025年10月28日

👉一键直达论文

👉一键直达Github

👉Lab4AI大模型实验室论文阅读

✅此平台提供AI导读和翻译等工具,辅助论文阅读。

✨研究背景

现有多模态大语言模型擅长第三人称视觉理解,但缺乏第一人称(自我中心)视角的推理能力。自我中心视频的核心挑战在于推断摄像机佩戴者不可见的意图及其与环境的细粒度交互,这要求模型具备长时序因果推理和精确的时空定位能力。然而,当前主流数据集缺乏详细的推理链和手物交互标注,导致模型难以理解复杂的自我中心活动,限制了其在可穿戴助手和具身智能中的应用。

✨研究框架

EgoThinker的框架核心是数据驱动与两阶段训练。首先,我们构建了包含500万问答对的大规模数据集EgoRe-5M,其囊括了从短时感知到长时序因果推理的多种任务。基于此,模型先通过监督微调 学习基础的视频理解与推理能力;再通过基于规则奖励的强化微调,专门优化其在手物空间定位与时间区间定位上的精度,从而将高层推理与低层感知紧密结合。

✨核心贡献

本文的核心贡献包括三方面:

  • 提出EgoRe-5M数据集:这是一个包含丰富思维链与手物交互标注的大规模自我中心问答数据集,涵盖多样化的真实场景与任务类型,为自我中心推理研究提供了重要数据基础。
  • 设计两阶段训练范式:通过SFT+RFT的结合,显著提升了模型在时空定位与因果推理方面的能力,尤其在细粒度交互理解与长时序推理任务中表现突出。
  • 构建EgoThinker模型并在多个基准测试中取得SOTA性能:在EgoPlan、EgoSchema、VLN-QA等自我中心推理任务中显著优于现有模型,同时保持通用视频理解能力,展示了其在可穿戴AI与具身智能中的潜力。
相关文章
|
6天前
|
云安全 人工智能 安全
AI被攻击怎么办?
阿里云提供 AI 全栈安全能力,其中对网络攻击的主动识别、智能阻断与快速响应构成其核心防线,依托原生安全防护为客户筑牢免疫屏障。
|
15天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
10天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
617 215
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
857 61
|
8天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
1294 157
|
5天前
|
编解码 Linux 数据安全/隐私保护
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
243 138
|
7天前
|
存储 安全 固态存储
四款WIN PE工具,都可以实现U盘安装教程
Windows PE是基于NT内核的轻量系统,用于系统安装、分区管理及故障修复。本文推荐多款PE制作工具,支持U盘启动,兼容UEFI/Legacy模式,具备备份还原、驱动识别等功能,操作简便,适合新旧电脑维护使用。
536 109