❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
🎬 "设计师集体失业?微软放出3D动画核弹:随手拍张照片,直接生成好莱坞级运镜"
大家好,我是蚝油菜花。深夜改第8版产品演示视频的你,是否还在经历这些视觉酷刑——
- 👉 甲方要360°环绕展示,3D建模师报价够买辆Model 3
- 👉 静态设计图做动态演示,AE工程文件堆满100个图层
- 👉 生成式AI做的动画,物体变形就像橡皮泥开会...
现在,微软I2V3D用三项颠覆性突破重新定义视频创作:
- ✅ 真·单图造梦:随手拍的咖啡杯照片,30秒生成带光影变化的3D旋转视频
- ✅ 导演级运镜:自定义相机轨迹实现电影级推拉摇移,支持无限延长动画序列
- ✅ 原子级操控:在生成视频中直接添加/替换物体,像玩3D建模软件般自由
更疯狂的是,这个融合传统CG管线与生成式AI的框架,正在被游戏公司用来批量生产宣传片。某独立工作室用它1天做完原本需要2周的动画分镜——你的剪辑软件,准备好迎接这场降维打击了吗?
🚀 快速阅读
I2V3D 是一个基于3D几何引导的图像到视频生成框架。
- 核心功能:支持静态图像到动态视频的转换,精确的3D控制,灵活的动画起始点,以及复杂场景编辑。
- 技术原理:通过3D几何重建、两阶段视频生成流程(关键帧生成和视频插值)、深度引导与特征控制,以及扩展注意力机制,确保生成视频的高质量和时间一致性。
I2V3D 是什么

I2V3D 是香港城市大学和微软 GenAI 创新的图像到视频生成框架,支持将静态图像转换为动态视频,基于3D几何引导实现精确的动画控制。I2V3D结合传统计算机图形学(CG)管线的精确控制能力和生成式AI模型的视觉保真度,用两阶段生成流程:3D引导的关键帧生成和视频插值,实现高质量、可控的视频生成。
I2V3D 支持复杂的3D动画和相机运动,让用户从任意初始点开始动画,生成任意长度的视频序列。I2V3D降低创作门槛,简化视频生成流程,为动画制作、视频编辑和内容创作等领域提供高效且灵活的解决方案。
I2V3D 的主要功能
- 静态图像到动态视频的转换:将单张静态图像转换为具有动态效果的视频,支持复杂的动画和相机运动。
- 精确的3D控制:基于3D引导实现对动画的精细控制,包括对象的旋转、平移、缩放及相机的运动(如旋转、平移、变焦等)。
- 灵活的动画起始点:支持自由定义动画的起始帧和任意长度的视频生成。
- 支持复杂场景编辑:用户在3D场景中添加、复制、替换或编辑对象,生成新的视频内容。
I2V3D 的技术原理

- 3D几何重建:从单张图像中重建完整的3D场景几何结构,包括前景对象和背景。前景对象被提取并转换为3D网格,背景用多视图生成和3D网格重建完成。
- 两阶段视频生成流程:
- 3D引导的关键帧生成:用定制化的图像扩散模型,基于粗糙的渲染结果作为引导,生成高质量的关键帧。多视图增强和扩展注意力机制提升模型的泛化能力和时间一致性。
- 3D引导的视频插值:在关键帧之间生成平滑、高质量的视频帧。无需训练,基于双向引导(正向和反向)确保视频的时间连贯性。
- 深度引导与特征控制:在视频生成过程中,用深度图和渲染特征(如自注意力特征和卷积特征)作为控制信号,确保生成的视频与3D渲染结果保持一致。
- 扩展注意力机制:基于扩展注意力机制,在关键帧生成阶段增强帧与帧之间的时空一致性,避免生成的视频出现闪烁或不连贯的问题。
资源
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦