SynCamMaster:快手联合浙大、清华等大学推出的多视角视频生成模型

简介: SynCamMaster是由快手科技联合浙江大学、清华大学等机构推出的全球首个多视角视频生成模型,能够结合6自由度相机姿势,从任意视点生成开放世界视频。该模型通过增强预训练的文本到视频模型,确保不同视点的内容一致性,支持多摄像机视频生成,并在多个应用场景中展现出巨大潜力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多视角视频生成:SynCamMaster 能够从同一动态场景的不同视角生成多个视频。
  2. 视点间动态同步:在多个视角间保持动态的同步,确保不同摄像机生成的视频内容在时间和空间上的一致性。
  3. 开放世界视频生成:支持从任意视角生成开放世界的视频,结合6自由度相机姿势,用户能从任意视角捕捉场景。

正文

SynCamMaster 是什么

公众号: 蚝油菜花 - SynCamMaster

SynCamMaster是由浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型。该模型能够结合6自由度相机姿势,从任意视点生成开放世界视频。SynCamMaster通过增强预训练的文本到视频模型,确保不同视点的内容一致性,支持多摄像机视频生成。

基于插件式模块和多视图同步模块,SynCamMaster实现了视点间的动态同步,保持4D一致性。此外,它还能扩展到新视角视频合成,重新渲染输入视频从新视角观看。

SynCamMaster 的主要功能

  • 多视角视频生成:从同一动态场景的不同视角生成多个视频。
  • 视点间动态同步:在多个视角间保持动态的同步,确保不同摄像机生成的视频内容在时间和空间上的一致性。
  • 开放世界视频生成:支持从任意视角生成开放世界的视频。
  • 6自由度相机姿势:结合6自由度(6 DoF)相机姿势,用户能从任意视角捕捉场景。
  • 预训练模型增强:用即插即用的模块增强预训练的文本到视频模型,用于多相机视频生成。
  • 新视角视频合成:扩展到新视角视频合成,引入参考视频到多相机视频生成模型中,实现从新视角重新渲染输入视频。

SynCamMaster 的技术原理

  • 预训练的文本到视频模型:基于预训练的文本到视频的扩散模型,根据文本描述生成一致的3D视频内容。
  • 多视图同步模块:引入多视图同步模块,模块被集成到每个Transformer块中,用于维护不同视角间的外观和几何一致性。
  • 相机编码器:将相机的外部参数(如旋转矩阵和平移向量)编码到与空间特征相同维度的嵌入空间中。
  • 交叉视角自注意力:在多视图同步模块中,使用交叉视角自注意力层聚合来自不同视角的特征,实现视图间的信息交流和同步。
  • 混合训练数据集:设计混合训练方案,结合多相机图像、单目视频和虚幻引擎渲染的多相机视频。
  • 渐进式训练策略:推出渐进式训练策略,逐渐增加训练中不同视角之间的相对角度差异,提高模型在处理大视角差异时的性能。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
Java 编译器
Java“精度可能丢失”错误解决
在处理Java编程语言中“精度可能丢失”的警告或错误信息时,通常涉及到数据类型之间的转换,特别是从高精度类型(如long、double)转换到低精度类型(如int、short)时。本指南将帮助你理解这一问题的根源,并提供有效策略来避免或解决此类错误,确保程序正确无误地运行。我们将会探讨如何使用显式类型转换(cast),以及如何优化代码逻辑来规避潜在的数据丢失风险。
765 0
|
1月前
|
机器学习/深度学习 自然语言处理 搜索推荐
蚂蚁百灵全模态 Ming-flash-omni-2.0 开源!视觉百科+可控语音生成+全能型图像编辑,打破全模态“博而不精”
2月11日,蚂蚁百灵团队开源全模态大模型Ming-flash-omni-2.0(基于Ling-2.0 MoE架构),在视觉理解、语音交互与图像编辑三大领域实现代际跃迁,达开源领先水平。支持多模态统一生成与深度编辑,模型权重与代码已开放。
481 4
 蚂蚁百灵全模态 Ming-flash-omni-2.0 开源!视觉百科+可控语音生成+全能型图像编辑,打破全模态“博而不精”
|
机器学习/深度学习
基于PaddleGAN精准唇形合成模型实现美女表白视频
基于PaddleGAN精准唇形合成模型实现美女表白视频
2214 0
基于PaddleGAN精准唇形合成模型实现美女表白视频
|
机器学习/深度学习 人工智能 自然语言处理
TrajectoryCrafter:腾讯黑科技!单目视频运镜自由重构,4D生成效果媲美实拍
TrajectoryCrafter 是腾讯与香港中文大学联合推出的单目视频相机轨迹重定向技术,支持后期自由调整视频的相机位置和角度,生成高质量的新型轨迹视频,广泛应用于沉浸式娱乐、创意视频制作等领域。
375 12
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
774 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
11月前
|
人工智能 调度 UED
这个AI能把PSD变视频!人物/场景/道具任意组合!SkyReels-A2:昆仑万维推出的可控多元素视频生成框架
SkyReels-A2是昆仑万维推出的创新视频生成框架,通过扩散模型和图像-文本联合嵌入技术,实现多元素精准组合与高质量视频输出。
537 25
这个AI能把PSD变视频!人物/场景/道具任意组合!SkyReels-A2:昆仑万维推出的可控多元素视频生成框架
|
11月前
|
人工智能 计算机视觉
漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图
MagicColor是香港科技大学推出的多实例线稿着色框架,基于扩散模型和自监督训练策略,实现单次前向传播完成多实例精准着色,大幅提升动画制作和数字艺术创作效率。
907 20
漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图
|
机器学习/深度学习 人工智能 自然语言处理
Sketch2Lineart:AI绘画工具,自动将手绘草图转换成清晰的线条画
Sketch2Lineart是一款基于人工智能的绘画工具,能够自动将手绘草图转换成清晰的线条画。该工具支持多种功能,如草图转线稿、自动描述生成、细节调整和风格定制等,适用于艺术创作、产品设计、教育培训等多个领域。
1446 60
Sketch2Lineart:AI绘画工具,自动将手绘草图转换成清晰的线条画
|
机器学习/深度学习 人工智能 自然语言处理
VidSketch:手残党逆袭!浙大AI神器草图秒变4K动画,三连提示词玩转影视级特效
VidSketch 是浙江大学推出的创新视频生成框架,通过手绘草图和简单文本提示生成高质量视频动画,降低视频创作的技术门槛,满足多样化的艺术需求。
467 6
VidSketch:手残党逆袭!浙大AI神器草图秒变4K动画,三连提示词玩转影视级特效
|
机器学习/深度学习 人工智能 缓存
每个人都可以成为虚拟主播,一键创建属于你的虚拟形象,RAIN 为你实时生成逼真动画角色
RAIN 是一款创新的实时动画生成工具,支持在消费级硬件上实现无限视频流的实时动画化,适用于直播、虚拟角色生成等场景。
772 25
每个人都可以成为虚拟主播,一键创建属于你的虚拟形象,RAIN 为你实时生成逼真动画角色

热门文章

最新文章