RTX3090可跑，360AI团队开源最新视频模型FancyVideo

2024-09-23 61

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【9月更文挑战第23天】近年来，人工智能技术的迅猛发展推动了视频生成领域的进步，但在合成动态、连贯且时长较长的视频方面仍面临挑战。为此，360AI团队提出了FancyVideo模型，通过跨帧文本指导实现更为连贯的视频生成。FancyVideo引入了跨帧文本指导模块（CTGM），包含时间信息注入器（TII）、时间相关性优化器（TAR）和时间特征增强器（TFB）三个组件，分别负责注入帧特定信息、优化相关性和增强时间一致性。这些机制使模型能生成具有连贯动作和丰富运动的视频，适用于动画制作和视频编辑等领域。然而，FancyVideo也存在计算复杂度高和细节真实感提升空间等局限。

近年来，随着人工智能技术的快速发展，视频生成领域取得了显著的进展。然而，在合成动态、连贯且时长较长的视频方面，仍存在一些挑战。为了解决这些问题，360AI团队提出了一种名为FancyVideo的新型视频生成模型。

FancyVideo旨在通过跨帧文本指导来实现动态和连贯的视频生成。该模型通过引入一种名为跨帧文本指导模块（CTGM）的创新机制，改进了现有的文本控制方法。CTGM包括三个关键组件：时间信息注入器（TII）、时间相关性优化器（TAR）和时间特征增强器（TFB）。

首先，TII将帧特定的信息从潜在特征中注入到文本条件中，从而获得跨帧文本条件。这一步骤确保了模型能够根据文本描述生成具有特定时间逻辑的视频。其次，TAR优化了跨帧文本条件和潜在特征之间的相关性矩阵，增强了模型对时间维度的理解。最后，TFB进一步增强了潜在特征的时间一致性，确保了生成的视频在时间上的连贯性。

FancyVideo的提出，为视频生成领域带来了新的突破。通过跨帧文本指导，该模型能够更好地理解和生成具有连贯动作和丰富运动的视频。这对于需要长时间连续动作的视频生成任务，如动画制作、视频编辑等，具有重要的实际应用价值。

然而，FancyVideo也存在一些局限性。首先，由于引入了复杂的跨帧文本指导机制，该模型的计算复杂度较高，可能需要更强大的计算资源来支持。其次，尽管FancyVideo在生成连贯视频方面取得了显著的进展，但仍存在一些挑战，如视频的细节丰富度、真实感等方面的提升。

论文地址：https://arxiv.org/abs/2408.08189