TrajectoryCrafter:腾讯黑科技!单目视频运镜自由重构,4D生成效果媲美实拍

简介: TrajectoryCrafter 是腾讯与香港中文大学联合推出的单目视频相机轨迹重定向技术,支持后期自由调整视频的相机位置和角度,生成高质量的新型轨迹视频,广泛应用于沉浸式娱乐、创意视频制作等领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎬 「运镜解放!腾讯ARC黑魔法:随手拍视频竟能后期改运镜轨迹?」

大家好,我是蚝油菜花。你是否经历过这些创作困境:

  • 👉 拍摄时手抖导致运镜生硬,成片像「帕金森纪录片」
  • 👉 想给产品视频加炫酷环绕镜头,租轨道车预算直接爆炸
  • 👉 剪辑时突发灵感想改视角,却发现原始素材根本不够用...

今天要揭秘腾讯ARC Lab的 TrajectoryCrafter ,这个用AI重构物理定律的神器,能让你在后期随意修改视频的相机轨迹!

🛠️ 三大颠覆性突破:

  • ✅ 单目视频秒变「4D建模」,支持任意平移/旋转/缩放轨迹
  • ✅ 双流扩散模型确保画面0穿帮,毛发纹理都能精准还原
  • ✅ 影视级泛化能力,从vlog到商业片场全面适配

导演们已经用它重制经典镜头,电商团队靠它生成360°产品展示——你的下个百万播放视频,可能就差这一次「运镜自由」!

🚀 快速阅读

TrajectoryCrafter 是一项用于单目视频相机轨迹重定向的创新技术。

  1. 核心功能:支持用户自由调整视频的相机轨迹,生成高保真、与源视频一致的新型轨迹视频。
  2. 技术原理:基于双流条件视频扩散模型,结合点云渲染和源视频,实现精确的视图变换和高质量内容生成。

TrajectoryCrafter 是什么

trajectorycrafter-3009091-hd_1280_720_30fps

trajectorycrafter-vlogger-corgi

TrajectoryCrafter 是由腾讯PCG ARC Lab和香港中文大学联合推出的一项创新技术,专注于单目视频的相机轨迹重定向。它允许用户在后期自由调整视频的相机位置和角度,轻松改变视频中的运镜方式,为视频创作提供更多可能性。

该技术基于解耦视图变换和内容生成的双流条件视频扩散模型,通过点云渲染和源视频作为条件输入,实现对用户指定相机轨迹的精确控制和高质量的4D内容生成。TrajectoryCrafter 的创新之处在于其双重重投影策略和混合数据集训练方法,显著提升了模型在多样化场景中的泛化能力。

TrajectoryCrafter 的主要功能

  • 精确轨迹控制:用户可指定任意相机轨迹(如平移、旋转、缩放等),生成与之匹配的视频内容。
  • 高保真视频生成:生成的视频在视觉上与原始视频保持一致,具备高质量的细节和纹理。
  • 4D一致性:生成的视频在空间上与目标轨迹一致,在时间上与原始视频保持连贯性,避免内容漂移或闪烁。
  • 多样化场景泛化:模型能适应各种场景,包括室内、室外、动态场景等,具有良好的泛化能力。

TrajectoryCrafter 的技术原理

  • 双流条件视频扩散模型:将相机轨迹的确定性变换与内容生成的随机性分开处理,基于点云渲染实现精确的视图变换,用视频扩散模型生成高质量的内容。
  • 双流条件机制:模型包含两个条件输入:点云渲染(用于精确控制视图变换)和源视频(用于提供细节和纹理)。通过独特的Ref-DiT模块(参考条件扩散变换器),将源视频的细节信息通过交叉注意力机制注入到生成过程中,提升生成视频的保真度。
  • 动态点云渲染:通过深度估计将单目视频转换为动态点云,根据用户指定的相机轨迹渲染新视图。点云渲染准确捕捉几何关系和视图变换,提供几何指导。
  • 混合数据集与训练策略:采用混合数据集策略,结合网络规模的单目视频和静态多视角数据集进行训练。通过双重重投影策略生成大规模的训练样本,提升模型在多样化场景中的泛化能力。

如何运行 TrajectoryCrafter

1. 克隆 TrajectoryCrafter 仓库

git clone --recursive https://github.com/TrajectoryCrafter/TrajectoryCrafter.git
cd TrajectoryCrafter

2. 设置环境

conda create -n trajcrafter python=3.10
conda activate trajcrafter
pip install -r requirements.txt

3. 下载预训练模型

可以通过 HuggingFace 或 git-lfs 下载预训练模型:

# 使用 HuggingFace(推荐)
sh download/download_hf.sh 

# 使用 git-lfs(速度较慢但更稳定)
sh download/download_lfs.sh

4. 运行推理

通过命令行运行推理脚本:

sh run.sh

5. 本地 Gradio 演示

运行本地 Gradio 演示:

python gradio_app.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
11月前
|
人工智能 自然语言处理 数据可视化
autoMate:无需视觉模型!用DeepSeek-V3/R1就能实现自动化操作电脑,支持任何可视化界面
autoMate是一款基于AI和RPA的本地自动化工具,通过自然语言实现复杂任务的自动化操作,支持本地部署,确保数据安全和隐私,适合需要高效处理重复性工作的用户。
748 1
autoMate:无需视觉模型!用DeepSeek-V3/R1就能实现自动化操作电脑,支持任何可视化界面
|
11月前
|
存储 人工智能 Docker
Heygem:开源数字人克隆神器!1秒视频生成4K超高清AI形象,1080Ti显卡也能轻松跑
Heygem 是硅基智能推出的开源数字人模型,支持快速克隆形象和声音,30秒内完成克隆,60秒内生成4K超高清视频,适用于内容创作、直播、教育等场景。
4239 8
|
11月前
|
人工智能 编解码
ReCamMaster:视频运镜AI革命!单镜头秒变多机位,AI重渲染颠覆创作
ReCamMaster 是由浙江大学与快手科技联合推出的视频重渲染框架,能够根据用户指定的相机轨迹重新生成视频内容,广泛应用于视频创作、后期制作、教育等领域,提升创作自由度和质量。
820 0
|
10月前
|
机器学习/深度学习 人工智能
OmniCam:浙大联合上海交大推出多模态视频生成框架,虚拟导演打造百万级影视运镜
OmniCam是由浙江大学与上海交通大学联合研发的多模态视频生成框架,通过LLM与视频扩散模型结合实现高质量视频生成,支持文本、轨迹和图像等多种输入模态。
341 1
OmniCam:浙大联合上海交大推出多模态视频生成框架,虚拟导演打造百万级影视运镜
|
11月前
|
人工智能 自然语言处理
AudioX:颠覆创作!多模态AI一键生成电影级音效+配乐,耳朵的终极盛宴
AudioX 是香港科技大学和月之暗面联合推出的扩散变换器模型,能够从文本、视频、图像等多种模态生成高质量音频和音乐,具备强大的跨模态学习能力和泛化能力。
931 36
AudioX:颠覆创作!多模态AI一键生成电影级音效+配乐,耳朵的终极盛宴
|
11月前
|
人工智能 物联网
VideoPainter:开源视频修复神器!双分支架构一键修复,对象身份永久在线
VideoPainter 是由香港中文大学、腾讯ARC Lab等机构联合推出的视频修复和编辑框架,基于双分支架构和预训练扩散模型,支持任意长度视频的修复与编辑,具备背景保留、前景生成、文本指导编辑等功能,为视频处理领域带来新的突破。
579 12
|
11月前
|
存储 人工智能 API
OWL:告别繁琐任务!开源多智能体系统实现自动化协作,效率提升10倍
OWL 是基于 CAMEL-AI 框架开发的多智能体协作系统,通过智能体之间的动态交互实现高效的任务自动化,支持角色分配、任务分解和记忆功能,适用于代码生成、文档撰写、数据分析等多种场景。
2014 13
OWL:告别繁琐任务!开源多智能体系统实现自动化协作,效率提升10倍
|
11月前
|
数据采集 人工智能 JavaScript
Browser Use:40.7K Star!一句话让AI完全接管浏览器!自动规划完成任务,多标签页同时管理
Browser Use 是一款专为大语言模型设计的智能浏览器自动化工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。
2790 21
Browser Use:40.7K Star!一句话让AI完全接管浏览器!自动规划完成任务,多标签页同时管理
|
11月前
|
机器学习/深度学习 人工智能 编解码
Step-Video-TI2V:开源视频生成核弹!300亿参数+102帧电影运镜
Step-Video-TI2V 是阶跃星辰推出的开源图生视频模型,支持根据文本和图像生成高质量视频,具备动态性调节和多种镜头运动控制功能,适用于动画制作、短视频创作等场景。
742 0
Step-Video-TI2V:开源视频生成核弹!300亿参数+102帧电影运镜
|
11月前
|
机器学习/深度学习 人工智能 并行计算
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。
1273 15
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!

热门文章

最新文章