TransPixar:港中文联合 Adobe 开源透明背景视频生成模型,生成透明背景的 RGBA 视频,助力特效等视觉效果制作

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: TransPixar 是由港中文、Adobe 等机构联合开源的文本到视频生成技术,支持生成包含透明背景的 RGBA 视频,适用于娱乐、广告、教育等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持生成包含透明背景的 RGBA 视频,适用于复杂视觉效果创作。
  2. 技术:基于扩散变换器(DiT)架构,结合 LoRA 微调,实现 RGB 和 alpha 通道的联合生成。
  3. 应用:广泛应用于娱乐、广告、教育等领域,助力视觉效果和交互式内容创作。

正文(附运行示例)

TransPixar 是什么

TransPixar

TransPixar 是由香港中文大学、Adobe 研究院、香港科技大学和智能摩尔联合开源的先进文本到视频生成技术。它扩展了预训练的 RGB 视频模型,能够生成包含透明度信息的 RGBA 视频。TransPixar 基于扩散变换器(DiT)架构,通过引入 alpha 特定的 token 和基于 LoRA 的微调,实现了 RGB 和 alpha 通道的联合生成,确保了高度一致性。

TransPixar 优化了注意力机制,保留了原始 RGB 模型的优势,即使在有限的训练数据下,也能生成多样化且对齐度高的 RGBA 视频。它支持创建包含烟雾、反射等透明元素的视频,并提供高度逼真的视觉效果。TransPixar 在娱乐、广告和教育等领域的应用前景广阔,为视觉效果(VFX)和交互式内容创作提供了新的可能性。

TransPixar 的主要功能

  • RGBA 视频生成:从文本描述生成包含 RGB 颜色通道和 alpha 透明度通道的视频,实现复杂视觉效果的创建。
  • 透明效果处理:支持生成具有透明属性的元素,如烟雾、反射等,无缝融入背景场景,适用于视觉效果(VFX)等应用。
  • 高质量视频生成:在生成 RGBA 视频的同时,保留原始 RGB 视频生成模型的高质量,确保视频的清晰度和细节表现。
  • 多场景适应性:适用于各种场景和对象类型的视频生成,包括人物动作、自然景观、动态效果等,具有良好的泛化能力。
  • 文本驱动内容创作:根据输入的文本描述,生成与之匹配的视频内容,实现文本到视频的自动化创作,提高内容生产的效率和创意性。

TransPixar 的技术原理

  • 扩散变换器(DiT)架构:基于 DiT 模型,用自注意力机制捕捉视频帧之间的长程依赖关系,实现对视频内容的精细建模和生成。
  • alpha 通道生成:在 DiT 模型中引入 alpha 特定的 token,与 RGB token 的联合生成,实现 alpha 通道的生成,支持 RGBA 视频的输出。
  • LoRA 微调:基于 LoRA(Low-rank Adaptation)的微调方案,对 alpha token 的投影进行微调,保持 RGB 生成质量的同时,优化 alpha 通道的生成。
  • 注意力机制优化:系统分析并优化 RGBA 生成过程中的注意力机制,包括 Text-attend-to-RGB、RGB-attend-to-Text、RGB-attend-to-Alpha 等,基于调整注意力计算,实现 RGB 和 alpha 通道之间的强对齐和高质量生成。
  • 数据集扩展与训练策略:在有限的 RGBA 视频数据集上进行训练,基于合理的数据预处理和训练策略,提高模型对多样化场景和对象类型的适应能力,增强生成内容的多样性和一致性。

如何运行 TransPixar

1. 安装环境

首先,创建一个新的 Conda 环境并安装所需的依赖项:

conda create -n TransPixar python=3.10
conda activate TransPixar
pip install -r requirements.txt

2. 启动 Gradio 演示

你可以通过以下命令启动本地的 Gradio 演示:

python app.py

3. 使用命令行生成 RGBA 视频

要生成 RGBA 视频,可以运行以下命令:

python cli.py \
    --lora_path /path/to/lora \
    --prompt "..." \

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
人工智能 自然语言处理 数据可视化
比Sora更王炸,LTX Studio文本生成超25秒,视频自带背景音乐、转场等效果!
【2月更文挑战第13天】比Sora更王炸,LTX Studio文本生成超25秒,视频自带背景音乐、转场等效果!
158 3
比Sora更王炸,LTX Studio文本生成超25秒,视频自带背景音乐、转场等效果!
|
8月前
|
前端开发 算法
Canvas艺术之旅:探索锚点抠图的无限可能
Canvas艺术之旅:探索锚点抠图的无限可能
79 0
|
22天前
|
机器学习/深度学习 编解码 人工智能
ColorFlow:腾讯和清华大学联合推出的图像序列着色模型,通过参考图像的颜色对黑白漫画进行着色生成彩色漫画
ColorFlow是由清华大学和腾讯ARC实验室共同推出的图像序列着色模型,通过检索增强、上下文学习和超分辨率技术,确保黑白图像序列的着色与参考图像颜色一致,适用于漫画、动画制作等工业应用。
424 15
ColorFlow:腾讯和清华大学联合推出的图像序列着色模型,通过参考图像的颜色对黑白漫画进行着色生成彩色漫画
|
5月前
|
前端开发
HTML+CSS动画实现动感3D卡片墙:现代Web设计的视觉盛宴
HTML+CSS动画实现动感3D卡片墙:现代Web设计的视觉盛宴
Photoshop使用路径描边制作梦幻潮流光丝字
Photoshop使用路径描边制作梦幻潮流光丝字
73 0
|
机器学习/深度学习 Web App开发 Ubuntu
宫崎骏动画里的新垣结衣见过没?这个开源动漫生成器让你的照片秒变手绘日漫
随手拍张照片,顺势转换为宫崎骏、新海诚等日漫大师的手绘风格作品,这个专门生成动漫图像的 GAN,实测很好用。
UWP 手绘视频创作工具技术分享系列 - 文字的解析和绘制
原文:UWP 手绘视频创作工具技术分享系列 - 文字的解析和绘制 本篇作为技术分享系列的第二篇,详细讲一下文字的解析和绘制,这部分功能的研究和最终实现由团队共同完成,目前还在寻找更理想的实现方式。 首先看一下文字绘制在手绘视频中的应用场景     文字是手绘视频中很重要的表现形式,应用场景很广,比如字幕、旁白和一些重要的文字说明提示。
1492 0
图像滤镜艺术---Photoshop实现Instagram之Mayfair滤镜效果
原文:图像滤镜艺术---Photoshop实现Instagram之Mayfair滤镜效果 本文介绍一下如何使用Photoshop来实现Instagram中的Mayfair滤镜的效果。
1351 0
图像滤镜艺术---乐高像素拼图特效
原文:图像滤镜艺术---乐高像素拼图特效 本文介绍乐高像素拼图特效滤镜的实现,这里仅仅介绍PS实现过程,关于程序的实现,大家可以使用ZPhotoEngine来实现,这个引擎可以在www.zealpixel.com上下载,是免费的。
1431 0
|
JSON 前端开发 数据格式
【UWP开源】图片编辑器,带贴图、滤镜、涂鸦等功能
原文:【UWP开源】图片编辑器,带贴图、滤镜、涂鸦等功能 目录 说明 功能 实现原理 使用方法 效果截图   说明 最近空余时间研究了一下Win2D,它能为我们在UWP中提供一种类似GDI那样的绘图方法。
1961 0

热门文章

最新文章