NeurlPS 2025!多伦多大学TIRE助力3D/4D 生成精准保留主体身份

简介: TIRE提出“追踪-补全-重投影”三阶段方法,实现主体驱动的3D/4D生成。通过视频跟踪识别缺失区域,定制2D模型补全纹理,并重投影至3D空间,提升生成一致性与质量,推动动态场景生成新进展。

论文标题:Track, Inpaint, Resplat: Subject-driven 3D and 4D Generation with Progressive Texture Infilling

作者团队:多伦多大学、向量研究院、Snap公司

发布时间:2025年10月28日

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

✅Lab4AI平台提供AI导读和AI翻译等工具,辅助论文阅读。您还可以投稿复现这篇论文~

⭐核心贡献

该研究提出了TIRE(Track, Inpaint, Resplat),一种新的主体驱动3D/4D生成方法:

  • 创新方法:提出三阶段方法(Track, Inpaint, Resplat),分别用于识别需要填充的区域、逐步填充未观察到的区域以及将2D填充观察结果重新投影回3D空间。
  • 高效性能:在构建的DreamBooth-Dynamic基准测试和野外数据上展示了TIRE在主体驱动3D/4D生成方面的优越性能。
  • 互补性:与其他领先的3D/4D生成方法形成正交且互补的关系,共同推动该领域的研究进展。

⭐研究方法

TIRE由三个关键步骤组成:

  • 1.Track:使用长视频跟踪来识别其他视角中需要填充的区域。
  • 2.Inpaint:采用定制的2D填充模型逐步填充Track识别出的未见区域,并确保填充内容与给定源视图中主体的身份匹配。
  • 3.Resplat:将Inpaint生成的多视角2D填充观察结果重新投影回3D空间,同时保持多个视角之间的一致性。

具体实现流程如下:

  • Track阶段:利用视频跟踪模型CoTracker从多视图渲染中找到源视图和目标视图之间的对应关系,识别需要填充的区域。
  • Inpaint阶段:使用定制的2D填充模型逐步填充识别出的未见区域。
  • Resplat阶段:将2D填充观察结果重新投影回3D空间,保持一致性。
相关文章
|
3月前
|
编解码 人工智能 文字识别
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
DeepSeek-OCR开源即获7k+星,首创“上下文光学压缩”技术,仅用100视觉token超越传统OCR模型256token性能,压缩比达10-20倍,精度仍超97%。30亿参数实现单卡日处理20万页,显著降低大模型长文本输入成本,重新定义高效文档理解新范式。
441 2
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
|
3月前
|
机器学习/深度学习 编解码 自然语言处理
腾讯混元 HunyuanVideo 1.5 开源!
腾讯混元团队开源HunyuanVideo 1.5,一款8.3B参数的轻量级视频生成模型,基于DiT架构,支持文生视频、图生视频,可在14G显存设备运行,生成5-10秒高清视频,具备强指令响应、流畅动作与电影级画质。
787 10
腾讯混元 HunyuanVideo 1.5 开源!
|
3月前
|
人工智能 Linux C++
VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉
VideoLLaMA 3是2025年发布的前沿多模态模型,深度融合视觉、音频与语言,支持长视频、高分辨率图像理解及视听融合推理。基于Llama 3架构,具备强大时空因果分析能力,适用于复杂视频理解任务,已在Lab4AI平台开放复现。
268 1
VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉
|
3月前
|
人工智能 API Python
Gemini 3 Nano Banana 的MCP服务器开发设计和 国内直连方案
基于Gemini 3 API开发的MCP绘图工具,支持在Coding客户端中边写代码边生成流程图。项目采用Python实现,兼容Gemini 2.5 Flash与3 Pro图像API,集成超时控制、国内直连路由转发功能,可高效调用AI生图。提供完整GitHub开源代码及在线试用地址,欢迎提交Issue交流。
|
3月前
|
机器学习/深度学习 编解码 JSON
混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA
腾讯混元推出全新开源OCR模型HunyuanOCR,仅1B参数,基于原生多模态架构,实现端到端高效推理。在复杂文档解析、文字检测识别等多场景表现卓越,支持14种小语种翻译,广泛适用于票据抽取、视频字幕识别等应用,多项指标达业界SOTA水平。
620 8
|
6月前
|
机器人 图形学 开发者
腾讯混元最新开源:一张图,秒变游戏大片
有没有想过,随手拍的一张风景照,下一秒就能变成可操控的游戏开放世界?
505 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
3447 9
|
3月前
|
自然语言处理 物联网 Shell
从 50 步到 4 步:LightX2V 如何把视频生成拉进20 秒时代?
LightX2V 是一款轻量级视频生成框架,通过4步蒸馏技术,将传统需50步的扩散模型压缩至仅4步,推理速度提升20倍,生成质量依旧保持影院级水准。支持文生视频与图生视频,兼容LoRA、量化等部署方案,助力AIGC高效落地。
440 0
从 50 步到 4 步:LightX2V 如何把视频生成拉进20 秒时代?
|
19天前
|
并行计算 监控 安全
高效 GPU 加速:DeepSeek-R1 系列模型在 llama.cpp 上的生产级部署指南
本文详解如何在RTX 30/40系显卡上,通过llama.cpp高效部署DeepSeek-R1-8B模型。涵盖CUDA镜像选择、GPU卸载调优、显存控制与高可用架构,结合Docker、Prometheus监控及负载均衡,实现低延迟、高吞吐的生产级推理,助力大模型落地应用。

热门文章

最新文章