NeurIPS 2025|让AI读懂第一视角的“内心独白”!浙大等联合突破性实现自我中心视频推理

简介: 浙大等提出EgoThinker,首创支持第一视角视频推理的AI模型。构建500万问答对数据集EgoRe-5M,结合思维链与手物交互标注,通过两阶段训练提升时空定位与长时序因果推理能力,在多项基准超越现有模型,推动可穿戴助手与具身智能发展。

NeurIPS 2025|让AI读懂第一视角的“内心独白”!浙大等联合突破性实现自我中心视频推理

论文名称:EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT

发布时间:2025年10月28日

👉一键直达论文

👉一键直达Github

👉Lab4AI大模型实验室论文阅读

✅此平台提供AI导读和翻译等工具,辅助论文阅读。

✨研究背景

现有多模态大语言模型擅长第三人称视觉理解,但缺乏第一人称(自我中心)视角的推理能力。自我中心视频的核心挑战在于推断摄像机佩戴者不可见的意图及其与环境的细粒度交互,这要求模型具备长时序因果推理和精确的时空定位能力。然而,当前主流数据集缺乏详细的推理链和手物交互标注,导致模型难以理解复杂的自我中心活动,限制了其在可穿戴助手和具身智能中的应用。

✨研究框架

EgoThinker的框架核心是数据驱动与两阶段训练。首先,我们构建了包含500万问答对的大规模数据集EgoRe-5M,其囊括了从短时感知到长时序因果推理的多种任务。基于此,模型先通过监督微调 学习基础的视频理解与推理能力;再通过基于规则奖励的强化微调,专门优化其在手物空间定位与时间区间定位上的精度,从而将高层推理与低层感知紧密结合。

✨核心贡献

本文的核心贡献包括三方面:

  • 提出EgoRe-5M数据集:这是一个包含丰富思维链与手物交互标注的大规模自我中心问答数据集,涵盖多样化的真实场景与任务类型,为自我中心推理研究提供了重要数据基础。
  • 设计两阶段训练范式:通过SFT+RFT的结合,显著提升了模型在时空定位与因果推理方面的能力,尤其在细粒度交互理解与长时序推理任务中表现突出。
  • 构建EgoThinker模型并在多个基准测试中取得SOTA性能:在EgoPlan、EgoSchema、VLN-QA等自我中心推理任务中显著优于现有模型,同时保持通用视频理解能力,展示了其在可穿戴AI与具身智能中的潜力。
相关文章
|
人工智能 自然语言处理 搜索推荐
贝聿铭的 “数字续作”:蚂蚁百宝箱 × 苏州博物馆,用 AI 重构文化地标
苏州博物馆携手蚂蚁百宝箱推出AI助手“小苏苏”,集成展讯、导览、文创推荐等功能,打造“咨询—导览—消费”闭环,以智能服务提升参观体验,助力文博场馆数字化升级。
372 0
贝聿铭的 “数字续作”:蚂蚁百宝箱 × 苏州博物馆,用 AI 重构文化地标
|
4月前
|
人工智能 测试技术
NeurlPS 2025!多伦多大学TIRE助力3D/4D 生成精准保留主体身份
TIRE提出“追踪-补全-重投影”三阶段方法,实现主体驱动的3D/4D生成。通过视频跟踪识别缺失区域,定制2D模型补全纹理,并重投影至3D空间,提升生成一致性与质量,推动动态场景生成新进展。
207 8
NeurlPS 2025!多伦多大学TIRE助力3D/4D 生成精准保留主体身份
|
4月前
|
机器学习/深度学习 人工智能 缓存
让AI评测AI:构建智能客服的自动化运营Agent体系
大模型推动客服智能化演进,从规则引擎到RAG,再到AI原生智能体。通过构建“评估-诊断-优化”闭环的运营Agent,实现对话效果自动化评测与持续优化,显著提升服务质量和效率。
2252 86
让AI评测AI:构建智能客服的自动化运营Agent体系
|
3月前
|
人工智能 数据可视化 API
看完《疯狂动物城》心痒痒?试试ComfyUI,让朱迪和尼克走进你的画布
看完《疯狂动物城》意犹未尽?用ComfyUI+Flux文生图模型,让朱迪和尼克跃然纸上!通过节点式工作流精准控制生成细节,还原动画级质感。毛发、表情、服饰皆栩栩如生,支持风格定制与角色一致性强的图像创作。无需高配硬件,Lab4AI平台一键部署,轻松实现你的创意构想。Anyone can create anything!
624 1
看完《疯狂动物城》心痒痒?试试ComfyUI,让朱迪和尼克走进你的画布
|
4月前
|
人工智能 前端开发 算法
大厂CIO独家分享:AI如何重塑开发者未来十年
在 AI 时代,若你还在紧盯代码量、执着于全栈工程师的招聘,或者仅凭技术贡献率来评判价值,执着于业务提效的比例而忽略产研价值,你很可能已经被所谓的“常识”困住了脚步。
2682 90
大厂CIO独家分享:AI如何重塑开发者未来十年
|
JavaScript
vue中有关表格中的表格头中添加悬浮提示的ui问题
vue中有关表格中的表格头中添加悬浮提示的ui问题
477 0
|
4月前
|
数据采集 人工智能 JSON
原来用聊天记录就可以创造数字分身!WeClone项目在Lab4AI上的复现
通过WeClone项目,只需导出聊天记录并微调大模型,即可打造专属数字分身。Lab4AI.cn提供一站式服务,无需复杂配置,四步完成:获取数据、预处理、微调、推理。支持自有数据训练,轻松实现个性化AI助手,体验“克隆”自己的奇妙之旅。
368 0
|
5月前
|
传感器 人工智能 API
仅100多元,他给视障人群装上AI“眼睛”
上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。
1256 6
仅100多元,他给视障人群装上AI“眼睛”
|
4月前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
1749 59
Meta SAM3开源:让图像分割,听懂你的话
|
6月前
|
人工智能 机器人 Serverless
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
当云计算遇见具身智能,AI咖啡开启零售新体验。用户通过手机生成个性化图像,云端AI快速渲染,机器人精准复刻于咖啡奶泡之上,90秒内完成一杯可饮用的艺术品。该方案融合阿里云FunctionAI生图能力与安诺机器人高精度执行系统,实现AIGC创意到实体呈现的闭环,为线下零售提供低成本、高互动、易部署的智能化升级路径,已在商场、机场、展馆等场景落地应用。
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案

热门文章

最新文章