SynCamMaster:快手联合浙大、清华等大学推出的多视角视频生成模型

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: SynCamMaster是由快手科技联合浙江大学、清华大学等机构推出的全球首个多视角视频生成模型,能够结合6自由度相机姿势,从任意视点生成开放世界视频。该模型通过增强预训练的文本到视频模型,确保不同视点的内容一致性,支持多摄像机视频生成,并在多个应用场景中展现出巨大潜力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多视角视频生成:SynCamMaster 能够从同一动态场景的不同视角生成多个视频。
  2. 视点间动态同步:在多个视角间保持动态的同步,确保不同摄像机生成的视频内容在时间和空间上的一致性。
  3. 开放世界视频生成:支持从任意视角生成开放世界的视频,结合6自由度相机姿势,用户能从任意视角捕捉场景。

正文

SynCamMaster 是什么

公众号: 蚝油菜花 - SynCamMaster

SynCamMaster是由浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型。该模型能够结合6自由度相机姿势,从任意视点生成开放世界视频。SynCamMaster通过增强预训练的文本到视频模型,确保不同视点的内容一致性,支持多摄像机视频生成。

基于插件式模块和多视图同步模块,SynCamMaster实现了视点间的动态同步,保持4D一致性。此外,它还能扩展到新视角视频合成,重新渲染输入视频从新视角观看。

SynCamMaster 的主要功能

  • 多视角视频生成:从同一动态场景的不同视角生成多个视频。
  • 视点间动态同步:在多个视角间保持动态的同步,确保不同摄像机生成的视频内容在时间和空间上的一致性。
  • 开放世界视频生成:支持从任意视角生成开放世界的视频。
  • 6自由度相机姿势:结合6自由度(6 DoF)相机姿势,用户能从任意视角捕捉场景。
  • 预训练模型增强:用即插即用的模块增强预训练的文本到视频模型,用于多相机视频生成。
  • 新视角视频合成:扩展到新视角视频合成,引入参考视频到多相机视频生成模型中,实现从新视角重新渲染输入视频。

SynCamMaster 的技术原理

  • 预训练的文本到视频模型:基于预训练的文本到视频的扩散模型,根据文本描述生成一致的3D视频内容。
  • 多视图同步模块:引入多视图同步模块,模块被集成到每个Transformer块中,用于维护不同视角间的外观和几何一致性。
  • 相机编码器:将相机的外部参数(如旋转矩阵和平移向量)编码到与空间特征相同维度的嵌入空间中。
  • 交叉视角自注意力:在多视图同步模块中,使用交叉视角自注意力层聚合来自不同视角的特征,实现视图间的信息交流和同步。
  • 混合训练数据集:设计混合训练方案,结合多相机图像、单目视频和虚幻引擎渲染的多相机视频。
  • 渐进式训练策略:推出渐进式训练策略,逐渐增加训练中不同视角之间的相对角度差异,提高模型在处理大视角差异时的性能。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
人工智能 算法 测试技术
Insight-V:腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型
Insight-V是由南洋理工大学、腾讯公司和清华大学联合推出的多模态模型,旨在提升长链视觉推理能力。通过渐进式数据生成、多智能体系统和两阶段训练流程,Insight-V在多个视觉推理基准测试中表现出色,展现出强大的视觉推理能力。
97 42
Insight-V:腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型
|
2月前
|
人工智能 数据处理 异构计算
LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架
LongRAG是由智谱、清华大学和中国科学院联合推出的双视角鲁棒检索增强生成框架,专为长文本问答设计。该框架通过混合检索器、LLM增强信息提取器、CoT引导过滤器和LLM增强生成器等组件,有效解决了长文本问答中的全局上下文理解和事实细节识别难题。LongRAG在多个数据集上表现优异,提供了自动化微调数据构建管道,增强了系统的“指令跟随”能力和领域适应性。
77 1
LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架
|
5月前
|
人工智能 大数据
实践证明+奖学金+项目履历!魔搭社区联合主办的AI 夏令营来了
2024 AI夏令营,由Datawhale主办,联合科大讯飞、阿里云天池、蚂蚁集团、英特尔、浪潮信息、魔搭社区等国内外顶尖人工智能企业。
|
8月前
|
人工智能 自然语言处理 算法
魔搭城市行 | 南京站 · 「阿里巴巴人工智能大模型&魔搭开源社区交流论坛」成功举办
2024年1月11日下午,阿里巴巴人工智能大模型及魔搭开源社区交流沙龙 · 南京站在南京软件谷云密城L栋成功举办!
|
8月前
|
人工智能 编解码 自然语言处理
美图与站酷联合举办美图创造力大会,共同探索“未来AI设计”
12月5-6日,主题为“未来AI设计”的美图创造力大会(MCC)在厦门举行。
|
机器学习/深度学习 人工智能 编解码
专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型
专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型
188 0
|
人工智能 自然语言处理 算法
专访梅涛:多名科大校友支持创业,年底前做出超越Stable Diffusion的底层视觉模型
专访梅涛:多名科大校友支持创业,年底前做出超越Stable Diffusion的底层视觉模型
144 0
|
存储 人工智能 编解码
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
251 0
|
机器学习/深度学习 人工智能 自动驾驶
清华大学联手中科院顶会发文:全面分析四大自动驾驶策略
清华大学联手中科院顶会发文:全面分析四大自动驾驶策略
130 0
|
机器学习/深度学习 自然语言处理 算法
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐
大淘宝技术团队论文入选计算机系统领域顶级国际学术会议OSDI,这是淘宝系统论文首次入选该国际顶会,论文详解了阿里历经四年、自主研发的首个端到端、通用型、规模化产业应用的端云协同机器学习系统“瓦力”——Walle。OSDI特别邀请到的David Tennenhouse在大会主旨演讲中专门推荐了Walle系统,对其技术先进性和应用落地效果赞誉有加。目前,Walle 作为阿里机器学习的基础设施支持 30+APP上 的300+个算法任务。
531 0
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐

热门文章

最新文章