集结MIT、英伟达等名校名企!FoundationMotion革新视频运动理解,开源模型竟超闭源大模型

简介: MIT、英伟达等联合推出FoundationMotion,首创全自动视频运动标注 pipeline,生成50万“视频-描述-QA”数据,覆盖7维运动语义与5类推理问题。模型微调后在MotionBench、AV-Car等评测中显著超越闭源大模型,推动视频理解迈向高精度自动标注新阶段。

集结MIT、英伟达等名校名企!FoundationMotion革新视频运动理解,开源模型竟超闭源大模型

论文标题:FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos

作者团队:麻省理工学院(MIT)、英伟达(NVIDIA)、密歇根大学、加州大学伯克利分校、斯坦福大学

发布时间:2025年12月11日

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

✨研究背景

运动理解是物理推理的基础,但现有视觉-语言模型在真实世界视频的运动分析上仍表现不足:缺乏大规模、细粒度的运动标注数据是关键限制。手动标注成本极高,且难以覆盖复杂运动场景,导致模型难以学习“物体如何运动、空间关系如何变化”的深层逻辑。

✨研究方法

FoundationMotion是全自动数据标注pipeline,通过“检测-跟踪-生成”三步提取视频运动信息并生成结构化数据,视频预处理裁剪片段、过滤摄像机剧烈运动视频,物体检测与跟踪含开放词汇检测、人类中心检测及时序跟踪,分别识别通用物体、聚焦人机交互、维持跨帧一致性,GPT-4o-mini将跟踪数据转为含7维度的自然语言,同时生成5类运动理解问答对,模拟运动逻辑推理需求。

✨研究结果

FoundationMotion Dataset含50万组“视频-描述-QA”对(46.7K视频/QA),标注密度1.671问题/秒;微调相关模型后运动理解性能显著提升,前者MotionBench提升至46.7%、AV-Car提升7.1%,后者提升至41.3%并超越闭源模型;边界框JSON提升QA质量,不同QA类型互补最优。

相关文章
|
5月前
|
并行计算 安全 测试技术
H100 真的被封印了吗?我用 vLLM+FP8 把吞吐拉爆了
H100未被封印!通过vLLM+FP8量化,实现Llama-3-8B推理吞吐提升60%,并发能力飙升5倍。利用PagedAttention与FP8 KV Cache,显存效率跃升,单卡承载达千级请求,实测60 QPS为稳定服务红线,为大模型生产部署提供高性能、低成本新范式。
834 0
H100 真的被封印了吗?我用 vLLM+FP8 把吞吐拉爆了
|
5月前
|
人工智能 运维 自然语言处理
别让 LLM 变成“甩锅发动机”——从安全、审计、隐私聊聊运维智能助手怎么落地
别让 LLM 变成“甩锅发动机”——从安全、审计、隐私聊聊运维智能助手怎么落地
556 117
|
5月前
|
存储 缓存 NoSQL
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
针对智能体式推理对KVCache的挑战,阿里云Tair KVCache团队联合SGLang社区推出HiCache技术,通过多级存储卸载与全局共享机制,实现缓存命中率翻倍、TTFT降低56%、QPS提升2倍,构建面向长上下文、高并发、多智能体协作的下一代推理缓存基础设施。
1067 27
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
|
5月前
|
机器学习/深度学习 人工智能 决策智能
小模型驱动大智能:NVIDIA新研究实现2.5倍效率提升,成本直降70%
NVIDIA联合港大提出ToolOrchestra,用小模型动态编排工具链,通过强化学习优化推理路径,在保证智能水平的同时提升2.5倍效率、降低70%成本,实现“以小控大”的高效AI新范式。
172 0
|
5月前
|
人工智能 运维 安全
探秘 AgentRun丨流量一大就瘫痪?如何解决 AI 模型调用之痛
AgentRun 通过完整的模型管理和治理能力,解决模型调用的可靠性的难题。
|
5月前
|
人工智能 搜索推荐 机器人
智能体是什么?3 分钟读懂 AI 智能体核心能力与应用场景
AI 智能体是具备自主理解、决策、执行任务能力的新一代 AI 系统,区别于传统 “指令响应式” 工具,它能像人类搭档一样拆解复杂需求、联动多能力模块完成闭环工作。NuwaAI 作为智能体数字人领域的标杆产品,已实现 “一句话生成智能体数字人”,其独创的双脑架构可支撑教育培训、电商直播、文旅表演、企业服务等 8 大场景,帮助用户将表达力转化为生产力,实测能降低 80% 的重复工作人力成本(数据来源:2025 年 AI 智能体行业白皮书)。
1716 12
|
5月前
|
机器学习/深度学习 人工智能 监控
别把模型当宠物养:从 CI/CD 到 MLOps 的工程化“成人礼”
别把模型当宠物养:从 CI/CD 到 MLOps 的工程化“成人礼”
518 163
|
5月前
|
人工智能 自然语言处理 算法
6步走I 大模型备案《通关手册》
本文依据《生成式人工智能服务管理暂行办法》,梳理企业上线大模型服务所需的备案流程、材料及注意事项,涵盖“是否需备案”“六步备案法”“安全评估重点”“特殊行业提示”等内容,助力企业合规落地。
1348 0
6步走I 大模型备案《通关手册》
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型(LLM)从入门到精通:测试人的技术跃迁指南
大模型正快速融入测试全流程——从用例生成、脚本编写到日志分析。本文用实战视角带你搞懂LLM核心原理、落地场景与避坑指南,手把手教你从“会用”进阶到“会赋能”,做那个驾驭AI的超级测试工程师。