NeurIPS 2025|让AI读懂第一视角的“内心独白”！浙大等联合突破性实现自我中心视频推理

2025-11-27 157

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 浙大等提出EgoThinker，首创支持第一视角视频推理的AI模型。构建500万问答对数据集EgoRe-5M，结合思维链与手物交互标注，通过两阶段训练提升时空定位与长时序因果推理能力，在多项基准超越现有模型，推动可穿戴助手与具身智能发展。

NeurIPS 2025|让AI读懂第一视角的“内心独白”！浙大等联合突破性实现自我中心视频推理

论文名称：EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT

发布时间：2025年10月28日

👉一键直达论文

👉一键直达Github

👉Lab4AI大模型实验室论文阅读

✅此平台提供AI导读和翻译等工具，辅助论文阅读。

✨研究背景

现有多模态大语言模型擅长第三人称视觉理解，但缺乏第一人称（自我中心）视角的推理能力。自我中心视频的核心挑战在于推断摄像机佩戴者不可见的意图及其与环境的细粒度交互，这要求模型具备长时序因果推理和精确的时空定位能力。然而，当前主流数据集缺乏详细的推理链和手物交互标注，导致模型难以理解复杂的自我中心活动，限制了其在可穿戴助手和具身智能中的应用。

✨研究框架

EgoThinker的框架核心是数据驱动与两阶段训练。首先，我们构建了包含500万问答对的大规模数据集EgoRe-5M，其囊括了从短时感知到长时序因果推理的多种任务。基于此，模型先通过监督微调学习基础的视频理解与推理能力；再通过基于规则奖励的强化微调，专门优化其在手物空间定位与时间区间定位上的精度，从而将高层推理与低层感知紧密结合。

✨核心贡献

本文的核心贡献包括三方面：

提出EgoRe-5M数据集：这是一个包含丰富思维链与手物交互标注的大规模自我中心问答数据集，涵盖多样化的真实场景与任务类型，为自我中心推理研究提供了重要数据基础。
设计两阶段训练范式：通过SFT+RFT的结合，显著提升了模型在时空定位与因果推理方面的能力，尤其在细粒度交互理解与长时序推理任务中表现突出。
构建EgoThinker模型并在多个基准测试中取得SOTA性能：在EgoPlan、EgoSchema、VLN-QA等自我中心推理任务中显著优于现有模型，同时保持通用视频理解能力，展示了其在可穿戴AI与具身智能中的潜力。