I2V3D:微软+港城大黑科技!单图秒变3D动态视频,相机轨迹自由操控

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
简介: I2V3D 是由香港城市大学和微软联合开发的图像到视频生成框架,支持将静态图像转换为动态视频,基于3D几何引导实现精确的动画控制,适用于动画制作、视频编辑和内容创作等领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎬 "设计师集体失业?微软放出3D动画核弹:随手拍张照片,直接生成好莱坞级运镜"

大家好,我是蚝油菜花。深夜改第8版产品演示视频的你,是否还在经历这些视觉酷刑——

  • 👉 甲方要360°环绕展示,3D建模师报价够买辆Model 3
  • 👉 静态设计图做动态演示,AE工程文件堆满100个图层
  • 👉 生成式AI做的动画,物体变形就像橡皮泥开会...

现在,微软I2V3D用三项颠覆性突破重新定义视频创作:

  • 真·单图造梦:随手拍的咖啡杯照片,30秒生成带光影变化的3D旋转视频
  • 导演级运镜:自定义相机轨迹实现电影级推拉摇移,支持无限延长动画序列
  • 原子级操控:在生成视频中直接添加/替换物体,像玩3D建模软件般自由

更疯狂的是,这个融合传统CG管线与生成式AI的框架,正在被游戏公司用来批量生产宣传片。某独立工作室用它1天做完原本需要2周的动画分镜——你的剪辑软件,准备好迎接这场降维打击了吗?

🚀 快速阅读

I2V3D 是一个基于3D几何引导的图像到视频生成框架。

  1. 核心功能:支持静态图像到动态视频的转换,精确的3D控制,灵活的动画起始点,以及复杂场景编辑。
  2. 技术原理:通过3D几何重建、两阶段视频生成流程(关键帧生成和视频插值)、深度引导与特征控制,以及扩展注意力机制,确保生成视频的高质量和时间一致性。

I2V3D 是什么

I2V3D-teaser

I2V3D 是香港城市大学和微软 GenAI 创新的图像到视频生成框架,支持将静态图像转换为动态视频,基于3D几何引导实现精确的动画控制。I2V3D结合传统计算机图形学(CG)管线的精确控制能力和生成式AI模型的视觉保真度,用两阶段生成流程:3D引导的关键帧生成和视频插值,实现高质量、可控的视频生成。

I2V3D 支持复杂的3D动画和相机运动,让用户从任意初始点开始动画,生成任意长度的视频序列。I2V3D降低创作门槛,简化视频生成流程,为动画制作、视频编辑和内容创作等领域提供高效且灵活的解决方案。

I2V3D 的主要功能

  • 静态图像到动态视频的转换:将单张静态图像转换为具有动态效果的视频,支持复杂的动画和相机运动。
  • 精确的3D控制:基于3D引导实现对动画的精细控制,包括对象的旋转、平移、缩放及相机的运动(如旋转、平移、变焦等)。
  • 灵活的动画起始点:支持自由定义动画的起始帧和任意长度的视频生成。
  • 支持复杂场景编辑:用户在3D场景中添加、复制、替换或编辑对象,生成新的视频内容。

I2V3D 的技术原理

I2V3D-methods

  • 3D几何重建:从单张图像中重建完整的3D场景几何结构,包括前景对象和背景。前景对象被提取并转换为3D网格,背景用多视图生成和3D网格重建完成。
  • 两阶段视频生成流程
    • 3D引导的关键帧生成:用定制化的图像扩散模型,基于粗糙的渲染结果作为引导,生成高质量的关键帧。多视图增强和扩展注意力机制提升模型的泛化能力和时间一致性。
    • 3D引导的视频插值:在关键帧之间生成平滑、高质量的视频帧。无需训练,基于双向引导(正向和反向)确保视频的时间连贯性。
  • 深度引导与特征控制:在视频生成过程中,用深度图和渲染特征(如自注意力特征和卷积特征)作为控制信号,确保生成的视频与3D渲染结果保持一致。
  • 扩展注意力机制:基于扩展注意力机制,在关键帧生成阶段增强帧与帧之间的时空一致性,避免生成的视频出现闪烁或不连贯的问题。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
9月前
|
人工智能 PyTorch API
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统,专注于从文本和图像生成高分辨率的 3D 模型,支持几何生成和纹理合成。
1106 5
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
|
9月前
|
机器学习/深度学习 人工智能 算法
MIDI-3D:单图秒变3D场景!40秒生成360度空间,多实例扩散黑科技
MIDI-3D 是一种先进的 AI 3D 场景生成技术,能够将单张图像快速转化为高保真度的 360 度 3D 场景,具有强大的全局感知能力和细节表现力,适用于游戏开发、虚拟现实、室内设计等多个领域。
343 18
MIDI-3D:单图秒变3D场景!40秒生成360度空间,多实例扩散黑科技
|
9月前
|
人工智能 缓存 Apache
Mistral Small 3.1:240亿参数多模态黑马!128k长文本+图像分析,推理速度150token/秒
Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型,具备 240 亿参数,支持文本和图像处理,推理速度快,适合多种应用场景。
342 7
Mistral Small 3.1:240亿参数多模态黑马!128k长文本+图像分析,推理速度150token/秒
|
9月前
|
人工智能 监控 数据可视化
Manus再遭复刻!开源多智能体协作工具,实时查看每个AI员工的"脑回路"
LangManus 是一个基于分层多智能体系统的 AI 自动化框架,支持多种语言模型和工具集成,能够高效完成复杂任务,适用于人力资源、房产决策、旅行规划等多个场景。
1036 0
|
9月前
|
前端开发 搜索推荐
使用DeepSeek快速创建的个人网站
这是一份使用DeepSeek快速创建个人网站的10分钟指南。内容分为四个步骤:搭建基础架构(HTML框架)、设计核心内容区块(关于我、作品展示等)、快速配置样式(CSS美化页面)以及添加联系表单并部署到GitHub Pages。通过简单的代码和DeepSeek的智能辅助功能,用户可以轻松实现个性化调整,如更换主题色、增加模块或优化响应式设计。虽然整体流程简单高效,但可能因功能有限或美观度不足而需进一步扩展与改进。
728 11
|
9月前
|
人工智能 vr&ar 图形学
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
牛津大学与谷歌联合推出的Bolt3D技术,能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景,基于高斯溅射和几何多视角扩散模型,为游戏、VR/AR等领域带来革命性突破。
377 2
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
|
9月前
|
数据采集 人工智能 数据可视化
SpatialLM:手机视频秒建3D场景!开源空间认知模型颠覆机器人训练
SpatialLM 是群核科技开源的空间理解多模态模型,能够通过普通手机拍摄的视频重建 3D 场景布局,赋予机器人类似人类的空间认知能力,适用于具身智能训练、自动导航、AR/VR 等领域。
746 5
SpatialLM:手机视频秒建3D场景!开源空间认知模型颠覆机器人训练
|
9月前
|
人工智能 监控 数据可视化
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
Agent TARS 是一款开源的多模态AI助手,能够通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。
3921 13
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
|
9月前
|
人工智能 运维 数据库
重识 APO:DeepSeek 掀起可观性领域变革 | 龙蜥生态
APO 专为可观测性领域打造了工作流编排平台。
|
8月前
|
机器学习/深度学习 人工智能 搜索推荐
快速切换多种画风!FlexIP:腾讯开源双适配器图像生成框架,精准平衡身份保持与个性化编辑
本文解析腾讯最新开源的FlexIP图像框架,其通过双适配器架构与动态门控机制实现身份保持与个性化编辑的精准平衡,在CLIP-I指标上取得0.873的高分验证了技术突破。
227 9
快速切换多种画风!FlexIP:腾讯开源双适配器图像生成框架,精准平衡身份保持与个性化编辑

热门文章

最新文章