TransPixar:港中文联合 Adobe 开源透明背景视频生成模型,生成透明背景的 RGBA 视频,助力特效等视觉效果制作

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: TransPixar 是由港中文、Adobe 等机构联合开源的文本到视频生成技术,支持生成包含透明背景的 RGBA 视频,适用于娱乐、广告、教育等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持生成包含透明背景的 RGBA 视频,适用于复杂视觉效果创作。
  2. 技术:基于扩散变换器(DiT)架构,结合 LoRA 微调,实现 RGB 和 alpha 通道的联合生成。
  3. 应用:广泛应用于娱乐、广告、教育等领域,助力视觉效果和交互式内容创作。

正文(附运行示例)

TransPixar 是什么

TransPixar

TransPixar 是由香港中文大学、Adobe 研究院、香港科技大学和智能摩尔联合开源的先进文本到视频生成技术。它扩展了预训练的 RGB 视频模型,能够生成包含透明度信息的 RGBA 视频。TransPixar 基于扩散变换器(DiT)架构,通过引入 alpha 特定的 token 和基于 LoRA 的微调,实现了 RGB 和 alpha 通道的联合生成,确保了高度一致性。

TransPixar 优化了注意力机制,保留了原始 RGB 模型的优势,即使在有限的训练数据下,也能生成多样化且对齐度高的 RGBA 视频。它支持创建包含烟雾、反射等透明元素的视频,并提供高度逼真的视觉效果。TransPixar 在娱乐、广告和教育等领域的应用前景广阔,为视觉效果(VFX)和交互式内容创作提供了新的可能性。

TransPixar 的主要功能

  • RGBA 视频生成:从文本描述生成包含 RGB 颜色通道和 alpha 透明度通道的视频,实现复杂视觉效果的创建。
  • 透明效果处理:支持生成具有透明属性的元素,如烟雾、反射等,无缝融入背景场景,适用于视觉效果(VFX)等应用。
  • 高质量视频生成:在生成 RGBA 视频的同时,保留原始 RGB 视频生成模型的高质量,确保视频的清晰度和细节表现。
  • 多场景适应性:适用于各种场景和对象类型的视频生成,包括人物动作、自然景观、动态效果等,具有良好的泛化能力。
  • 文本驱动内容创作:根据输入的文本描述,生成与之匹配的视频内容,实现文本到视频的自动化创作,提高内容生产的效率和创意性。

TransPixar 的技术原理

  • 扩散变换器(DiT)架构:基于 DiT 模型,用自注意力机制捕捉视频帧之间的长程依赖关系,实现对视频内容的精细建模和生成。
  • alpha 通道生成:在 DiT 模型中引入 alpha 特定的 token,与 RGB token 的联合生成,实现 alpha 通道的生成,支持 RGBA 视频的输出。
  • LoRA 微调:基于 LoRA(Low-rank Adaptation)的微调方案,对 alpha token 的投影进行微调,保持 RGB 生成质量的同时,优化 alpha 通道的生成。
  • 注意力机制优化:系统分析并优化 RGBA 生成过程中的注意力机制,包括 Text-attend-to-RGB、RGB-attend-to-Text、RGB-attend-to-Alpha 等,基于调整注意力计算,实现 RGB 和 alpha 通道之间的强对齐和高质量生成。
  • 数据集扩展与训练策略:在有限的 RGBA 视频数据集上进行训练,基于合理的数据预处理和训练策略,提高模型对多样化场景和对象类型的适应能力,增强生成内容的多样性和一致性。

如何运行 TransPixar

1. 安装环境

首先,创建一个新的 Conda 环境并安装所需的依赖项:

conda create -n TransPixar python=3.10
conda activate TransPixar
pip install -r requirements.txt

2. 启动 Gradio 演示

你可以通过以下命令启动本地的 Gradio 演示:

python app.py

3. 使用命令行生成 RGBA 视频

要生成 RGBA 视频,可以运行以下命令:

python cli.py \
    --lora_path /path/to/lora \
    --prompt "..." \

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
10月前
|
人工智能 自然语言处理 物联网
MultiBooth:清华联合 Meta 推出多对象的图像生成框架,生成包含多个指定对象的图像
MultiBooth是清华大学联合Meta等机构推出的多概念图像生成方法,支持高效生成高保真度图像,适用于娱乐、广告、教育等多个领域。
208 19
MultiBooth:清华联合 Meta 推出多对象的图像生成框架,生成包含多个指定对象的图像
|
10月前
|
机器学习/深度学习 分布式计算 并行计算
《构建高效K近邻算法:降低计算复杂度的策略与实践》
K近邻(KNN)算法在机器学习中广泛应用,但面临计算复杂度高的问题。为提高效率,可通过以下方法优化: 1. **数据预处理**:降维(如PCA、LDA)和标准化,减少维度和尺度差异。 2. **优化距离度量**:选择合适的距离函数或自适应调整,提升相似性判断。 3. **加速搜索**:使用KD树、球树、LSH等数据结构,减少搜索范围。 4. **近似最近邻**:随机投影、基于聚类的近似算法,降低计算成本。 5. **并行与分布式处理**:利用多核、GPU或分布式框架加速计算。 6. **融合其他算法**:结合神经网络或聚类算法,先提取特征或聚类再应用KNN。
380 13
|
10月前
|
弹性计算 运维 Linux
阿里云操作系统智能助手OS Copilot使用评测报告
作为一名运维工程师,我近期体验了阿里云的OS Copilot智能助手。安装过程顺利,支持Alibaba Cloud Linux系统。通过-t参数可快速进入agent模式,-f参数实现批量任务处理,管道功能解析复杂配置文件,显著提升效率约40%。总体而言,OS Copilot简化了Linux系统运维流程,适合工程师和开发者使用。建议继续增强功能及响应速度。 [了解更多](https://help.aliyun.com/zh/alinux/user-guide/instructions-for-os-copilot)
288 85
阿里云操作系统智能助手OS Copilot使用评测报告
|
10月前
|
人工智能 C#
AU音乐制作之如何把音乐的音质提高于320KBps、采样率高于44.1KHz-音频文件处理-adobe audition (原Cool Edit Pro)-世界级好用软件之一
AU音乐制作之如何把音乐的音质提高于320KBps、采样率高于44.1KHz-音频文件处理-adobe audition (原Cool Edit Pro)-世界级好用软件之一
1504 66
AU音乐制作之如何把音乐的音质提高于320KBps、采样率高于44.1KHz-音频文件处理-adobe audition (原Cool Edit Pro)-世界级好用软件之一
|
10月前
|
机器学习/深度学习 人工智能 搜索推荐
Ingredients:无需额外训练的多ID视频生成框架,通过多张人物照片生成定制视频
Ingredients 是一款基于多ID照片与视频扩散Transformer相结合的定制视频生成框架,能够生成高质量、身份一致且内容灵活的视频。
407 19
Ingredients:无需额外训练的多ID视频生成框架,通过多张人物照片生成定制视频
|
10月前
|
人工智能 达摩院 并行计算
VideoRefer:阿里达摩院开源视频对象感知与推理框架,可集成 VLLM 提升其空间和时间理解能力
VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术,支持细粒度视频对象理解、复杂关系分析及多模态交互,适用于视频剪辑、教育、安防等多个领域。
577 17
VideoRefer:阿里达摩院开源视频对象感知与推理框架,可集成 VLLM 提升其空间和时间理解能力
|
9月前
|
消息中间件 Linux
Linux中的System V通信标准--共享内存、消息队列以及信号量
希望本文能帮助您更好地理解和应用System V IPC机制,构建高效的Linux应用程序。
382 48
|
10月前
Porfinet从转Ethernet/IP从总线协议转换网关
通过使用协议转换网关,可以有效实现PROFINET与EtherNet/IP之间的通信互操作,提升工业自动化系统的灵活性和兼容性。关键在于选择合适的网关设备,正确配置网络和协议参数,确保数据的准确传输和实时通信。通过以上步骤,可以顺利实现从PROFINET到EtherNet/IP的协议转换,满足复杂工业环境中的多协议集成需求。
337 31
|
10月前
|
敏捷开发 供应链 搜索推荐
敏捷在汽车行业的应用实践:从理念到落地
在电动化、智能化和个性化趋势推动下,汽车行业正经历深刻变革。敏捷方法成为企业应对快速变化市场的关键。Scrum中文网致力于推广敏捷理念,提供系统化培训和定制化解决方案,帮助企业加速产品迭代、强化跨部门协作、提升决策效率。通过自研工具Leangoo领歌,实现端到端敏捷研发管理,助力企业在变化中抓住机遇,走在行业前沿。
|
10月前
|
监控 关系型数据库 MySQL
Aurora MySQL负载突增应对策略与优化方案
通过以上策略,企业可以有效应对 Aurora MySQL 的负载突增,确保数据库在高负载情况下依然保持高性能和稳定性。这些优化方案涵盖了从架构设计到具体配置和监控的各个方面,能够全面提升数据库的响应速度和处理能力。在实际应用中,应根据具体的业务需求和负载特征,灵活调整和应用这些优化策略。
201 22

热门文章

最新文章