TrajectoryCrafter:腾讯黑科技!单目视频运镜自由重构,4D生成效果媲美实拍

简介: TrajectoryCrafter 是腾讯与香港中文大学联合推出的单目视频相机轨迹重定向技术,支持后期自由调整视频的相机位置和角度,生成高质量的新型轨迹视频,广泛应用于沉浸式娱乐、创意视频制作等领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎬 「运镜解放!腾讯ARC黑魔法:随手拍视频竟能后期改运镜轨迹?」

大家好,我是蚝油菜花。你是否经历过这些创作困境:

  • 👉 拍摄时手抖导致运镜生硬,成片像「帕金森纪录片」
  • 👉 想给产品视频加炫酷环绕镜头,租轨道车预算直接爆炸
  • 👉 剪辑时突发灵感想改视角,却发现原始素材根本不够用...

今天要揭秘腾讯ARC Lab的 TrajectoryCrafter ,这个用AI重构物理定律的神器,能让你在后期随意修改视频的相机轨迹!

🛠️ 三大颠覆性突破:

  • ✅ 单目视频秒变「4D建模」,支持任意平移/旋转/缩放轨迹
  • ✅ 双流扩散模型确保画面0穿帮,毛发纹理都能精准还原
  • ✅ 影视级泛化能力,从vlog到商业片场全面适配

导演们已经用它重制经典镜头,电商团队靠它生成360°产品展示——你的下个百万播放视频,可能就差这一次「运镜自由」!

🚀 快速阅读

TrajectoryCrafter 是一项用于单目视频相机轨迹重定向的创新技术。

  1. 核心功能:支持用户自由调整视频的相机轨迹,生成高保真、与源视频一致的新型轨迹视频。
  2. 技术原理:基于双流条件视频扩散模型,结合点云渲染和源视频,实现精确的视图变换和高质量内容生成。

TrajectoryCrafter 是什么

trajectorycrafter-3009091-hd_1280_720_30fps

trajectorycrafter-vlogger-corgi

TrajectoryCrafter 是由腾讯PCG ARC Lab和香港中文大学联合推出的一项创新技术,专注于单目视频的相机轨迹重定向。它允许用户在后期自由调整视频的相机位置和角度,轻松改变视频中的运镜方式,为视频创作提供更多可能性。

该技术基于解耦视图变换和内容生成的双流条件视频扩散模型,通过点云渲染和源视频作为条件输入,实现对用户指定相机轨迹的精确控制和高质量的4D内容生成。TrajectoryCrafter 的创新之处在于其双重重投影策略和混合数据集训练方法,显著提升了模型在多样化场景中的泛化能力。

TrajectoryCrafter 的主要功能

  • 精确轨迹控制:用户可指定任意相机轨迹(如平移、旋转、缩放等),生成与之匹配的视频内容。
  • 高保真视频生成:生成的视频在视觉上与原始视频保持一致,具备高质量的细节和纹理。
  • 4D一致性:生成的视频在空间上与目标轨迹一致,在时间上与原始视频保持连贯性,避免内容漂移或闪烁。
  • 多样化场景泛化:模型能适应各种场景,包括室内、室外、动态场景等,具有良好的泛化能力。

TrajectoryCrafter 的技术原理

  • 双流条件视频扩散模型:将相机轨迹的确定性变换与内容生成的随机性分开处理,基于点云渲染实现精确的视图变换,用视频扩散模型生成高质量的内容。
  • 双流条件机制:模型包含两个条件输入:点云渲染(用于精确控制视图变换)和源视频(用于提供细节和纹理)。通过独特的Ref-DiT模块(参考条件扩散变换器),将源视频的细节信息通过交叉注意力机制注入到生成过程中,提升生成视频的保真度。
  • 动态点云渲染:通过深度估计将单目视频转换为动态点云,根据用户指定的相机轨迹渲染新视图。点云渲染准确捕捉几何关系和视图变换,提供几何指导。
  • 混合数据集与训练策略:采用混合数据集策略,结合网络规模的单目视频和静态多视角数据集进行训练。通过双重重投影策略生成大规模的训练样本,提升模型在多样化场景中的泛化能力。

如何运行 TrajectoryCrafter

1. 克隆 TrajectoryCrafter 仓库

git clone --recursive https://github.com/TrajectoryCrafter/TrajectoryCrafter.git
cd TrajectoryCrafter

2. 设置环境

conda create -n trajcrafter python=3.10
conda activate trajcrafter
pip install -r requirements.txt

3. 下载预训练模型

可以通过 HuggingFace 或 git-lfs 下载预训练模型:

# 使用 HuggingFace(推荐)
sh download/download_hf.sh 

# 使用 git-lfs(速度较慢但更稳定)
sh download/download_lfs.sh

4. 运行推理

通过命令行运行推理脚本:

sh run.sh

5. 本地 Gradio 演示

运行本地 Gradio 演示:

python gradio_app.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
人工智能
SynCamMaster:快手联合浙大、清华等大学推出的多视角视频生成模型
SynCamMaster是由快手科技联合浙江大学、清华大学等机构推出的全球首个多视角视频生成模型,能够结合6自由度相机姿势,从任意视点生成开放世界视频。该模型通过增强预训练的文本到视频模型,确保不同视点的内容一致性,支持多摄像机视频生成,并在多个应用场景中展现出巨大潜力。
343 4
SynCamMaster:快手联合浙大、清华等大学推出的多视角视频生成模型
|
3月前
|
人工智能 安全 机器人
2026 年 19 款最佳 AI 生产力工具:分级排名
还记得 2023 年吗?那时候,仿佛每隔 45 分钟就有一款新的“颠覆性” AI 工具横空出世。 而到了今天,我们都有过在某个令人抓狂的周二下午,跟一个死不认错的聊天机器人争论不休的经历。现在,我们正经历着“订阅疲劳”,面对着那些已经好几个月没碰过的工具账单感到厌倦。 但当我们展望 2026 年时,风向已经变了。早期的惊奇与憧憬已烟消云散,取而代之的是一个简单而急切的问题:这些工具真的能帮我们搞定日常工作吗?
2103 9
|
6月前
|
机器学习/深度学习 数据采集 编解码
Stable Video Diffusion:将潜在视频扩散模型扩展到大规模数据集——论文阅读
Stable Video Diffusion(SVD)是Stability AI提出的高分辨率视频生成模型,基于潜在扩散框架,通过三阶段训练与严格数据筛选,在文本到视频和图像到视频任务中实现高质量生成。论文系统研究了数据质量对模型性能的影响,提出级联切分检测、运动评分过滤、合成字幕优化等策略,并引入线性递增引导等创新技术,显著提升生成稳定性与视觉保真度。
1248 4
|
机器学习/深度学习 人工智能 算法
MIDI-3D:单图秒变3D场景!40秒生成360度空间,多实例扩散黑科技
MIDI-3D 是一种先进的 AI 3D 场景生成技术,能够将单张图像快速转化为高保真度的 360 度 3D 场景,具有强大的全局感知能力和细节表现力,适用于游戏开发、虚拟现实、室内设计等多个领域。
516 18
MIDI-3D:单图秒变3D场景!40秒生成360度空间,多实例扩散黑科技
|
12月前
|
机器学习/深度学习 人工智能 图形学
I2V3D:微软+港城大黑科技!单图秒变3D动态视频,相机轨迹自由操控
I2V3D 是由香港城市大学和微软联合开发的图像到视频生成框架,支持将静态图像转换为动态视频,基于3D几何引导实现精确的动画控制,适用于动画制作、视频编辑和内容创作等领域。
401 3
I2V3D:微软+港城大黑科技!单图秒变3D动态视频,相机轨迹自由操控
|
11月前
|
机器学习/深度学习 人工智能
OmniCam:浙大联合上海交大推出多模态视频生成框架,虚拟导演打造百万级影视运镜
OmniCam是由浙江大学与上海交通大学联合研发的多模态视频生成框架,通过LLM与视频扩散模型结合实现高质量视频生成,支持文本、轨迹和图像等多种输入模态。
382 1
OmniCam:浙大联合上海交大推出多模态视频生成框架,虚拟导演打造百万级影视运镜
|
机器学习/深度学习 人工智能 异构计算
SkyReels-A1:解放动画师!昆仑开源「数字人制造机」:一张照片生成逼真虚拟主播,表情连眉毛颤动都可控
SkyReels-A1 是昆仑万维开源的首个 SOTA 级别表情动作可控的数字人生成模型,支持高保真肖像动画生成和精确的表情动作控制。
1325 23
|
数据采集 机器学习/深度学习 人工智能
Sitcom-Crafter:动画师失业警告!AI黑科技自动生成3D角色动作,剧情脚本秒变动画
Sitcom-Crafter 是一款基于剧情驱动的 3D 动作生成系统,通过多模块协同工作,支持人类行走、场景交互和多人交互,适用于动画、游戏及虚拟现实等领域。
815 4
|
Web App开发 人工智能 JavaScript
Nanobrowser:开源版OpenAI Operator!AI自动操控浏览器,复杂网页任务一键搞定
Nanobrowser 是一款开源的 Chrome 扩展工具,基于多智能体系统实现复杂的网页任务自动化,支持多种大型语言模型,完全免费且注重隐私保护。
1911 1
|
存储 人工智能 API
AppAgentX:告别重复点击!自我进化式GUI代理自动生成高级操作,效率翻倍
AppAgentX 是西湖大学推出的新型自我进化式 GUI 代理框架,通过记忆和进化机制提升智能手机交互的效率和智能性,支持复杂任务和跨应用操作,显著优于现有方法。
739 0

热门文章

最新文章