AI视频风格转换: Stable Diffusion + TemporalKit-阿里云开发者社区

AI视频风格转换: Stable Diffusion + TemporalKit

2023-07-24 765

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 首先通过 Temporal-Kit 这个插件提取视频中的关键帧图片，然后使用 Stable Diffusion WebUI 重绘关键帧图片，然后再使用 Temporal-Kit 处理转换后的关键帧图片，它会自动补充关键帧之间的图片，最后拼合这些图片，形成视频。

基本方法

首先通过 Temporal-Kit 这个插件提取视频中的关键帧图片，然后使用 Stable Diffusion WebUI 重绘关键帧图片，然后再使用 Temporal-Kit 处理转换后的关键帧图片，它会自动补充关键帧之间的图片，最后拼合这些图片，形成视频。

这个方法建议尽量找些背景简单的、主体在画面中占比较大且动作变化较慢的，这样重绘时生成的图片元素会比较稳定、主体动作衔接到位，效果会好一些。

安装TemporalKit

方法一

在Stable Diffusion WebUI中通过网址安装，依次打开“扩展插件”-“从网址安装”页签，输入Github仓库地址： https://github.com/CiaraStrawberry/TemporalKit.git，然后点击“安装”，安装成功后会看到一个重启的提示，然后在“已安装”页签中重启就可以了。如下图所示：

重启SD后会在一级菜单中看到 Temporal-Kit 页签。

如果没有看到，请查看控制台是否有错误日志。我这里出现了找不到模块的错误：

ModuleNotFoundError: No module named 'moviepy'

ModuleNotFoundError: No module named 'scenedetect'

这是因为Temporal-Kit依赖的某些Python包不存在，使用pip安装它们就行了。

source /root/stable-diffusion-webui/venv/bin/activate
pip install moviepy
pip install scenedetect

我这里还使用了 source xxx/activate，这是因为我的Stable Diffusion WebUI运行在一个Python虚拟环境中，如果你的也是，需要先激活这个虚拟环境，注意修改成你自己的文件路径，然后把包安装到这个虚拟环境中才可以找到它们。

安装完这些依赖包后，重启SD，正常情况下应该就能出来了。如果还不行，请留言说明问题。

方法二

不能直接访问Github，比如访问不了外网，可以把这个插件下载后，再放到SD WebUI的扩展插件目录中。

这个插件的下载地址：https://github.com/CiaraStrawberry/TemporalKit.git

如果你访问Github不方便，也可以关注我的公/众\号：萤火遛AI（yinghuo6ai）,发消息：视频风格转换，即可获取下载地址。

把插件解压后，放到你的SD WebUI的extensions目录中，就像下面图片中这样：

提取关键帧

为什么要提取关键帧？提取关键帧就是把视频中动作变化比较大的画面转成图片，下一步就是对这些图片进行重绘。如果不提取关键帧，而是把视频的每一帧都重绘，一是工作量大，二是重绘的每张图片可能都有点不一样，画面可能闪烁比较严重。

在SD WebUI的主页签中找到 Temporal-Kit，点击打开。然后接着点击“Pre-Processing”，在视频区域这里上传待处理的视频，这是我从抖音上截取的一段（文章最后会提供这个视频的下载地址）。不要马上点击“运行”，还有一些设置，请继续看下文。

在视频下方可以看到这些设置，这些都是针对提取图片的设置：

Sides：生成的1张图片的边包含几张视频帧。如果是2就代表4个视频帧，也就是 2*2；如果是3就代表9个视频帧，也就是 3*3；最小设置为1，也就是1张图包含1个视频帧。这个要结合后边的 Height Resolution一起设置。

Height Resolution：生成图片的高度的像素值，建议是：视频的高度 * Sides ，比如我这个视频是 1080*720，单个视频帧的高度就是720，但是前边Sides设置的2，所以就是720*2=1440。但是这个公式不是绝对的，你也可以写个720，或者写个2048。这个值需要考虑显卡的性能，如果显卡不太行，不要设置的太高。

frames per keyframe：多少视频帧抽取一个关键帧。

fps：视频每秒包含几帧，在电脑上查看视频详情一般可以获取到。

Target Folder：关键帧图片的输出位置，实际会输出到这个目录下创建的一个input文件夹，后续各种处理的中间文件都在这个文件夹下，相当于一个项目目录，所以建议为每个视频的不同处理创建不同的文件夹。注意如果是云端，这里需要是服务器上的目录。

Batch Settings：因为我们这里需要处理整个视频，所以需要把这个Batch Run勾选上。