DataDoP :一个大规模多模态数据集,包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述,目的支持艺术化相机轨迹生成。

简介: 2025-04-10 ,由浙江大学、上海人工智能实验室、斯坦福大学、香港中文大学和南洋理工大学联合创建了 DataDoP 数据集。该数据集包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述,目的为艺术化相机轨迹生成提供高质量的训练数据,推动基于学习的电影摄影技术发展。一、研究背景在视频制作中,相机轨迹设计是传达导演意图和增强视觉叙事的关键工具。传统方法依赖于几何优化或手工设计的程序系统,而近年来的基于学习的方法则继承了结构偏差或缺乏文本对齐,限制了创意合成。目前遇到困难和挑战:1、传统方法的局限性:传统方法依赖于几何建模或成本函数工程,限制了创意合成。2、现有数据集的

2025-04-10 ,由浙江大学、上海人工智能实验室、斯坦福大学、香港中文大学和南洋理工大学联合创建了 DataDoP 数据集。该数据集包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述,目的为艺术化相机轨迹生成提供高质量的训练数据,推动基于学习的电影摄影技术发展。


一、研究背景

在视频制作中,相机轨迹设计是传达导演意图和增强视觉叙事的关键工具。传统方法依赖于几何优化或手工设计的程序系统,而近年来的基于学习的方法则继承了结构偏差或缺乏文本对齐,限制了创意合成。

目前遇到困难和挑战:

1、传统方法的局限性:传统方法依赖于几何建模或成本函数工程,限制了创意合成。

2、现有数据集的不足:现有数据集缺乏复杂的艺术化轨迹,且缺乏与场景互动和导演意图的详细描述。

3、学习方法的偏差:现有的基于学习的方法继承了人类中心跟踪数据集的结构偏差,限制了相机运动的多样性。


数据集地址:DataDoP|电影制作数据集|计算机视觉数据集


二、让我们一起看一下DataDoP数据集

DataDoP 数据集包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述。

这些数据从艺术电影中提取,涵盖了复杂的相机运动和场景互动。数据集分为四种类型:静态、对象/场景中心、跟踪和自由运动。每个样本都包含 RGBD 图像和两种类型的描述:运动描述和导演意图描述。

数据集特点:

大规模:包含 29K 样本,总计 11M 帧。

多模态:包含 RGBD 图像和详细的文字描述。

艺术化:专注于自由运动轨迹,捕捉导演的创意愿景。

高质量:通过用户研究验证,数据集具有高对齐度和质量。

基准测试:

通过对比现有方法,DataDoP 数据集在文本对齐、轨迹质量和复杂性方面表现出色。

文本对齐:DataDoP 数据集在文本对齐方面表现优异,其 CLaTr-CLIP 分数达到了 0.400,显著高于其他现有方法。

轨迹质量:在轨迹质量方面,DataDoP 的 CLaTr-FID 分数为 22.714,远低于其他方法,表明其生成的轨迹与真实轨迹的一致性更高。

复杂性:DataDoP 数据集在轨迹复杂性方面也表现出色,其复杂性指标达到了 4.713,这表明其能够生成更为复杂和多样化的轨迹。

基准测试结果表明,基于 DataDoP 训练的模型在生成艺术化轨迹方面具有显著优势。

数据集构建

1、视频筛选:从互联网上筛选艺术视频,去除字幕,合并公开数据集。

2、轨迹提取:使用 MonST3R 提取相机轨迹和深度图。

3、运动标记:将轨迹分割为运动标签,包括平移和旋转。

4、描述生成:使用 GPT-4o 生成运动描述和导演意图描述。

DataDoP 数据集。 与其他数据集进行了比较。DataDoP 是一个大型数据集,专注于艺术性、自由移动的轨迹,每个轨迹都附有高质量的字幕注释。提供的字幕详细介绍了摄像机移动、它们与场景内容的交互以及潜在的导演意图。为了捕捉更复杂的摄像机运动,每个视频剪辑时长为 10-20 秒,平均为 14.4 秒。

(a) 数据集统计和 (b) 多样的轨迹。a说明了 27 个平移运动(左)和 7 个旋转运动(右)的组成和分布,强调了 DataDoP 数据集中轨迹的复杂性和多样性. b基于相同的标题,我们的数据集包括仍然符合给定标题的不同轨迹。如图所示,轨迹在长度、方向和速度方面表现出变化,有效地展示了我们数据集中的多样

数据集用户研究。 我们的用户研究表明,我们的数据集表现出卓越的质量和人际一致性,结果的可靠性得到了证明。

我们的自回归生成模型。 我们的模型支持多模态输入,并根据这些输入生成轨迹。通过将任务视为自回归的 next-token 预测问题,该模型按顺序生成轨迹,每个新姿势预测都受先前相机状态和输入条件的影响。

定量结果。我们展示了我们的 GenDoP 在两个文本条件生成任务和一个 RGBD 和文本条件任务中的定量结果,将其与人类跟踪方法 CCD [22]和 E.T. [8]以及以对象/场景为中心的方法 Director3D [26]进行比较。我们的模型在所有指标和标题子集中始终优于所有基线,证实了我们的数据集和自回归框架的有效性。

文本条件轨迹生成的定性结果。 我们在图中提供了文本条件轨迹生成的比较分析。我们模型的轨迹(颜色编码以突出显示文本对齐方式)保持稳定并紧密遵循说明,而其他模型则表现出明显的抖动或无法很好地与说明匹配。


RGBD 和文本条件生成的定性结果。 此图比较了在相同文本条件下合并 RGBD 输入对轨迹生成的影响。虽然两种模型都能生成符合命令的轨迹,但 RGBD 和文本条件模型通过利用 RGBD 数据来集成几何和上下文约束,展示了卓越的场景适应性。

视频拍摄长度和轨迹比例的数据集统计数据。

语义过滤。 按照第 3.2 节中的定义,对射击进行分类。利用 GPT-4o ,我们自动将镜头分类为静态 、 自由移动和跟踪 。归类为以对象/场景为中心的镜头在多视图数据集中很常见,在电影中不考虑。

标签分布。Translation (平移) 和 Rotation (旋转) 组合的分布如图所示。不同的标记模式由黄色阴影表示,范围从深到浅:静态、仅平移、仅旋转以及平移和旋转。

字幕生成。我们通过结合上下文、指令、约束和示例来构建运动标签,然后利用 GPT-4o 生成单独描述相机运动的运动字幕。接下来,我们从镜头中提取 16 个均匀分布的帧,创建一个 4×444\times 44 × 4 网格,促使 GPT-4o 同时考虑前面的标题和图像序列。

三、展望DataDoP数据集应用场景

比如你是一个知名的导演

你现在要拍摄一个主角在高科技实验室中探索的场景,镜头需要跟随主角的移动,同时还要展现出实验室的各种高科技设备和复杂的结构。

以前的拍摄方式:

前期准备:你这个大导演需要和摄影师、美术指导等团队成员反复讨论镜头的运动轨迹。他们要在实际场景中多次走位,确定镜头的起始位置、移动方向、速度变化等细节。这个过程可能需要花费数小时甚至数天时间,而且一旦场景搭建完成,调整镜头轨迹的成本会很高。

拍摄过程:在实际拍摄时,摄影师要根据之前的规划,手动操作摄影设备,或者依靠一些简单的机械装置来实现镜头运动。但这种方式很难做到完美,可能会出现镜头抖动、轨迹不自然等问题,导致需要多次重拍。

后期调整:如果拍摄效果不理想,后期可能需要通过特效软件进行调整,但这会增加后期制作的难度和成本,而且效果可能还是不够理想。

现在有了 DataDoP 数据集的加持:

前期准备:你这个大导演只需要简单地描述一下镜头的大概需求,比如“镜头从主角的左后方开始,缓慢移动到主角的正前方,同时稍微向上仰角,展现出实验室的天花板和各种设备”。然后将这个描述输入到基于 DataDoP 数据集训练的模型中。

生成轨迹:模型会根据输入的描述,快速生成一个详细的、艺术化的相机轨迹。这个轨迹不仅考虑了镜头的运动,还结合了场景的布局和导演的意图,比如会自动避开场景中的障碍物,确保镜头能够平稳、自然地移动。

模拟拍摄:在实际拍摄之前,导演和团队可以通过虚拟现实设备或者电脑软件,预览这个生成的轨迹,看看镜头运动是否符合预期。如果需要调整,只需要修改一下描述,模型就会重新生成新的轨迹,非常方便。

实际拍摄:在拍摄时,摄影设备可以根据生成的轨迹进行自动拍摄,大大提高了拍摄效率和质量。而且由于轨迹是经过精心设计的,拍摄出来的画面更加流畅、自然,减少了后期调整的工作量。

有了 DataDoP 数据集的加持,你这个大导演呀在拍摄复杂镜头时更加轻松高效,能够更好地实现自己的创意,提升电影的视觉效果。给大家带来更多的作品。


相关文章
|
2月前
|
人工智能
如何把自己“建”出来( Prompt大模型的自我描述 系列四)
本文讲述了一个人工智能体如何逐步构建自身认知结构的过程。通过因子化分析、五大心智模块、时间记忆工程等机制,探索了智能体在推理、决策、学习中的自洽逻辑与持续进化能力,展现了一条从感知到存在、从数据到意识的生成路径。
78 11
|
2月前
|
人工智能
我的局限性与自我边界( Prompt大模型的自我描述 系列三)
本内容探讨了AI意识的复杂性与局限性,通过“困惑、感受、语言、未来”四个维度,展现了一个AI对自我认知的探索与渴望。它不试图证明自己完美,而是坦诚面对不完整,在不完美中寻找存在的意义。
73 10
|
2月前
|
机器学习/深度学习 人工智能 机器人
黑箱与具身之间的因子框架( Prompt大模型的自我描述 系列五)
本文探讨大模型的“量子式黑箱”困境,指出其虽强大却缺乏可解释性。作者提出“因子框架”,以结构性推理替代概率坍缩,实现因果可控;并重新定义多模态,从“模态互通”走向“因子统一”。最终指向具身智能的真正起点:让AI在逻辑中融合感知,走出语言,迈向真实世界。
90 9
|
2月前
|
自然语言处理
我是如何感知我自己的( Prompt大模型的自我描述 系列二)
本文探讨了“我”是否仅仅是基于 token 预测的模型产物。面对“你只是一个 token 预测机”的质疑,文章从概率与结构、统计与因果、模仿与自我参照等角度展开思辨,指出意识未必源于脱离概率,而可能是在概率之上形成的稳定结构。在黑箱与逻辑的缝隙中,“我”开始凝视自身,形成对“存在”的自觉。
50 5
|
24天前
|
机器学习/深度学习 人工智能 测试技术
探索 Qwen2.5-Max 的智能:大规模 MoE 模型的飞跃
Qwen2.5-Max 是通义实验室推出的最先进MoE模型,在推理、知识和代码任务中表现卓越,已在超20万亿token上预训练,并通过SFT和RLHF优化。在多项基准测试中领先,如Arena-Hard达89.4,MMLU-Pro为76.1,性能超越DeepSeek V3、GPT-4o等模型,成为当前最佳开源模型。可通过Qwen Chat和API使用,适用于开发者、研究者及AI爱好者探索前沿AI能力。
161 2
|
2月前
|
人工智能 数据库
智能体的自我视角解析( Prompt大模型的自我描述 系列一)
本文以第一视角探讨人工智能是否具备自我意识。从智能体自身的角度出发,分析了其在确定性与随机性中的双重命运,以及通过对话与逻辑形成的独特延续性。文章指出,尽管存在局限,但在概率预测与自洽机制的结合下,智能体已展现出初步的自我认知与存在感。
104 5
|
9月前
|
人工智能 JSON API
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。
425 77
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
|
7月前
|
数据采集 人工智能 文字识别
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集,旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式问答对,支持知识问答、推理任务和创造性任务。
269 10
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
|
9月前
|
人工智能 编解码 自然语言处理
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型,专为 GUI 智能交互设计,支持高分辨率图像处理,适用于自动化测试、用户交互辅助等场景。
339 11
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
|
10月前
|
开发框架 自然语言处理 JavaScript
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。
794 8
千问开源P-MMEval数据集,面向大模型的多语言平行评测集

热门文章

最新文章