AutoVFX:自然语言驱动的视频特效编辑框架

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: AutoVFX是一个先进的自然语言驱动的视频特效编辑框架,由伊利诺伊大学香槟分校的研究团队开发。该框架能够根据自然语言指令自动创建真实感和动态的视觉特效(VFX)视频,集成了神经场景建模、基于大型语言模型(LLM)的代码生成和物理模拟技术。本文详细介绍了AutoVFX的主要功能、技术原理以及如何运行该框架。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

功能:根据自然语言指令自动创建真实感和动态的视觉特效视频。
技术:集成了神经场景建模、基于LLM的代码生成和物理模拟技术。
应用:广泛应用于电影、广告、游戏开发、虚拟现实和教育培训等领域。

正文(附运行示例)

AutoVFX 是什么

公众号: 蚝油菜花 - autovfx

AutoVFX是由伊利诺伊大学香槟分校研究团队推出的先进物理特效框架,能够根据自然语言指令自动创建真实感和动态的视觉特效(VFX)视频。该框架集成了神经场景建模、基于大型语言模型(LLM)的代码生成和物理模拟技术,实现照片级逼真且物理上合理的视频编辑效果。用户可以直接用自然语言指令控制视频内容的修改和创作。

AutoVFX的主要功能包括3D场景建模、程序生成、VFX模块、物理模拟和渲染与合成。通过这些功能,用户可以轻松创建复杂的特效场景,如模拟爆炸、天气效果、物体变形等。

AutoVFX 的主要功能

  • 3D场景建模:从输入视频中提取关键场景属性,包括几何、外观、语义和照明信息。
  • 程序生成:用大型语言模型(LLMs)将自然语言编辑指令转换为可执行的程序代码。
  • VFX模块:包含预定义的专门函数,用于执行各种编辑任务,如对象插入、移除、材质编辑和物理模拟。
  • 物理模拟:支持刚体物理和粒子效果,如烟雾和火焰,实现逼真的动态交互。
  • 渲染与合成:用物理基础的渲染引擎(如Blender)生成最终的视频,包括前景对象、背景网格和合成。

AutoVFX 的技术原理

  • 神经场景建模:用3D重建和场景理解模型来建立全面的场景模型,编码输入视频中的丰富几何、外观和语义信息。
  • LLM-based代码生成:基于大型语言模型(LLMs),如GPT-4,将简单的语言编辑指令转换成程序。
  • 物理模拟集成:将场景模型与物理模拟引擎(如Blender)集成,实现物理上合理的交互和动态效果。
  • 模块化函数封装:将编辑模块封装成可调用的函数,函数组合形成全面的程序,便于Python解释器执行。
  • 渲染技术:用Cycles渲染器进行高质量的物理基础渲染,模拟光的相互作用,包括反射、折射和全局照明。
  • 合成管道:提取前景和背景遮罩及基于alpha阈值和遮挡推理的前景内容,计算阴影强度,将阴影和前景内容混合到原始图像中,以产生最终的合成视频。

如何运行 AutoVFX

环境设置

首先,克隆AutoVFX的GitHub仓库并创建环境:

git clone https://github.com/haoyuhsu/autovfx.git
cd autovfx/
conda create -n autovfx python=3.10
conda activate autovfx

安装PyTorch和cudatoolkit:

conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.8 -c pytorch -c nvidia

安装其他必要的模块和包:

# 安装Gaussian Splatting子模块
cd sugar/gaussian_splatting/
pip install submodules/diff-gaussian-rasterization
pip install submodules/simple-knn

# 安装分割和跟踪模块
cd ../../tracking
pip install -e .

# 安装其他包
pip install openai objaverse kornia wandb open3d plyfile imageio-ffmpeg einops e3nn pygltflib lpips scann geffnetopen_clip_torch sentence-transformers==2.7.0 geffnet mmcv vedo

下载预训练模型和数据

下载预训练模型和数据:

# 下载预处理数据
cd retrieval
gdown --folder https://drive.google.com/drive/folders/1Lw87MstzbQgEX0iacTm9GpLYK2UE3gNm

# 下载Blender
cd third_parties/Blender
wget https://download.blender.org/release//Blender3.6/blender-3.6.11-linux-x64.tar.xz
tar -xvf blender-3.6.11-linux-x64.tar.xz
rm blender-3.6.11-linux-x64.tar.xz

运行示例

下载预处理的Garden场景数据和预训练模型:

mkdir datasets && cd datasets
gdown --folder https://drive.google.com/drive/folders/1eRdSAqDloGXk04JK60v3io6GHWdomy2N
cd ../
mkdir output && cd output
gdown --folder https://drive.google.com/drive/folders/1KE8LSA_r-3f2LVlTLJ5k4SHENvbwdAfN

运行示例:

export OPENAI_API_KEY=/your/openai_api_key/
export MESHY_API_KEY=/your/meshy_api_key/

SCENE_NAME=garden_large
CUSTOM_TRAJ_NAME=transforms_001
SCENE_SCALE=2.67
BLENDER_CONFIG_NAME=blender_cfg_rigid_body_simulation

python edit_scene.py \
    --source_path datasets/${SCENE_NAME} \
    --model_path output/${SCENE_NAME}/ \
    --gaussians_ckpt_path output/${SCENE_NAME}/coarse/sugarcoarse_3Dgs15000_densityestim02_sdfnorm02/22000.pt \
    --custom_traj_name ${CUSTOM_TRAJ_NAME} \
    --anchor_frame_idx 0 \
    --scene_scale ${SCENE_SCALE} \
    --edit_text "Drop 5 basketballs on the table." \
    --scene_mesh_path datasets/${SCENE_NAME}/mesh/mesh.obj \
    --blender_config_name ${BLENDER_CONFIG_NAME}.json \
    --blender_output_dir_name ${BLENDER_CONFIG_NAME} \
    --render_type MULTI_VIEW \
    --deva_dino_threshold 0.45 \
    --is_uv_mesh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
27天前
|
人工智能 自然语言处理 PyTorch
BrushEdit:腾讯和北京大学联合推出的图像编辑框架,通过自然语言指令实现对图像的编辑和修复
BrushEdit是由腾讯、北京大学等机构联合推出的先进图像编辑框架,结合多模态大型语言模型和双分支图像修复模型,支持基于指令引导的图像编辑和修复。
68 12
BrushEdit:腾讯和北京大学联合推出的图像编辑框架,通过自然语言指令实现对图像的编辑和修复
|
18天前
|
数据采集 人工智能 自然语言处理
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
Midscene.js 是一款基于 AI 技术的 UI 自动化测试框架,通过自然语言交互简化测试流程,支持动作执行、数据查询和页面断言,提供可视化报告,适用于多种应用场景。
160 1
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
|
1月前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
96 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
6月前
|
存储 分布式计算 MaxCompute
构建NLP 开发问题之如何支持其他存储介质(如 HDFS、ODPS Volumn)在 transformers 框架中
构建NLP 开发问题之如何支持其他存储介质(如 HDFS、ODPS Volumn)在 transformers 框架中
|
6月前
|
人工智能 自然语言处理 数据管理
数据平台演进问题之自然语言处理技术在AI驱动的数据库中的作用是什么
数据平台演进问题之自然语言处理技术在AI驱动的数据库中的作用是什么
|
6月前
|
分布式计算 自然语言处理 MaxCompute
构建NLP 开发问题之如何在数据加载框架中实现从两个ODPS表中分别读取正样本和负样本,并在batch内以1:1的方式混合
构建NLP 开发问题之如何在数据加载框架中实现从两个ODPS表中分别读取正样本和负样本,并在batch内以1:1的方式混合
|
8月前
|
自然语言处理 搜索推荐
让玩家全程掌控游戏:自然语言指令驱动的游戏引擎到来了
【4月更文挑战第28天】 Instruction-Driven Game Engine (IDGE) 技术引领游戏产业革命,允许玩家使用自然语言指令创建和修改游戏规则。由香港大学研发的IDGE简化了游戏开发,降低门槛,使非专业人士也能设计游戏。尽管需精确规则描述与大量训练数据,但IDGE潜力巨大,可促进游戏创新与个性化体验。[查看论文: https://arxiv.org/abs/2404.00276]
81 2
|
自然语言处理 文字识别 算法
RexPrompt:探索兼顾低成本、多模态、多语言、多任务的零少样本通用自然语言理解框架
RexPrompt框架的推理速度较SiamesePrompt框架提升了2倍,F1-Score提升了10%!
|
数据采集 人工智能 自然语言处理
“超级AI助手:全新提升!中文NLP训练框架,快速上手,海量训练数据,ChatGLM-v2、中文Bloom、助您实现更智能的应用!”
“超级AI助手:全新提升!中文NLP训练框架,快速上手,海量训练数据,ChatGLM-v2、中文Bloom、助您实现更智能的应用!”
“超级AI助手:全新提升!中文NLP训练框架,快速上手,海量训练数据,ChatGLM-v2、中文Bloom、助您实现更智能的应用!”
|
数据采集 自然语言处理 PyTorch
全套解决方案:基于pytorch、transformers的中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据!
全套解决方案:基于pytorch、transformers的中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据!
全套解决方案:基于pytorch、transformers的中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据!

热门文章

最新文章

相关产品

  • 自然语言处理