视频里,两个正在跳舞的小姐姐,你能看出什么异常吗?再放大点。
她们的动作表情完全一模一样,但右边的这位,是 AI 换脸,是不是完全看不出瑕疵。
这个就是非常爆火,并且在 GitHub 拥有25k star 的一个最新 AI 换脸项目 roop。短短几周星标人数就疯狂增长。它的效果非常真实,以后想看谁跳舞就可以看谁跳舞,想看谁演电影就能看谁演电影。
虽然说这个 AI 换脸项目已经开源,但市面上对于这块的详细教程并不多,而且不是要收费,就是生成的效果太假。
所以今天这期视频,就是一期保姆级教程 AI 换脸项目roop的视频教程。我们将用AI编程工具-通义灵码来进行实操教学,它是目前最受国内开发者欢迎的AI编程工具。有了通义灵码的帮助,很多明星大模型项目实操过程中遇到的问题:查找错误、解释代码、优化代码、查找文档、代码补全等等都可以用通义灵码一键解决,而且准确率很高,加上灵活的实操环境,项目跑起来会非常高效。关键是通义灵码个人版还免费!话不多说,直接开干。
实操演示
1. 以PyCharm开发环境为例,在文件菜单下点击设置。然后点击导航-插件,打开应用市场,搜索通义灵码(TONGYI Lingma),找到通义灵码后点击安装,然后登录自己阿里云账号就可以使用了。它这个像主流的编程语言和工具都是支持的。比如Visual Studio Code、Visual Studio、JetBrains IDEs。
2. 第一步,首先需要将roop项目的源代码克隆到我们的开发环境下。打开终端,在终端输入git clone https://github.com/s0md3v/roop.git 就可以将代码克隆到当前的工作目录下了。
3. 当我们面对一个全新的开发源代码库的时候,我们可以借助通义灵码来帮助我们熟悉各个程序文件。直接对话框内唤起@workspace,对他说,帮我梳理roop代码库的结构,它就会为你详细解释各个程序文件了,这样看是不是就一目了然了。
4. 然后我们要给电脑安装好FFmpeg,这个是图像处理领域经常使用的工具。像这种常用的工具说明文档我会放在团队知识库中,问通义灵码,它就会调用知识库提供详细的安装方法。在对话框内输入#team docs,然后就可以进行提问了。这也是通义灵码的一个核心能力叫企业知识库检索增强,在开发者使用通义灵码 IDE 插件时,可以结合企业上传的文档、文件等内容作为上下文进行回答,这样获得的答案也更贴合企业自己的特点。下载解压后进入 bin 目录,复制 bin 目录路径。在[编辑环境变量]表中将刚才复制的 bin目录路径粘贴进去,保存。
5. 为了不与之前配置的开发环境混淆,我们需要使用conda创建一个虚拟环境,在终端输入 conda create --name roop python=3.10。
6. 接下来,我们需要给显卡配置CUDA的开发环境。在终端输入
pip install torch==2.0.0+cu118 torchvision==0.15.1+cu118 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118
随后执行pip install -r requirements.txt来安装环境。
7. 这里遇到了路径报错。这个时候如果自己去一个一个检查代码会很费时间,AI编程工具能有效解决这个问题,我们可以打开通义灵码对话框,将报错的内容输入进对话框中,就一下知道哪里错了,此外,通义灵码也有一键修复问题的能力,只需要一键就能帮你快速修改bug。可以看到现在的绝对路径下没有 requirements.txt 这个文件,需要将路径切换到 roop 目录下。OK 指令能够被正确执行了。
8. 接下来,我们可以在终端中输入pip install onnxruntime-gpu来安装GPU版本的 onnxruntime-gpu。好了后就可以输入 python run.py 来执行我们的主程序。
9. 成功运行程序后,就可以选择想要换脸的照片和视频,然后点击 Start 开始处理视频。然后就搞定了。
10. 最后我们还可以对项目的参数做一些调整,像这个大模型的项目参数就会比较复杂不好理解,可以让通义灵码一键解释下,比如这个max-memory,让它来帮忙分析一下。原来这个是用来指定程序运行时最大的内存使用量的。我们可以尝试一下,将这个最大内存设置为8GB。我们可以在终端中输入 python run.py --max-memory 8 程序被成功运行了起来。
当然输入的参数还涵盖了很多陌生的技术名词,这里也可以启动@workspace来理解这些变量。比如说一个很重要的参数fps,询问下“代码里面出现了--keep-fps这个参数,能详细介绍一下这个参数的作用吗”,我们就能获得一个清晰的解释了。
因为过程有通义灵码的辅助,不仅可以快速对整个程序代码有清晰的理解、出现报错一键优化,还可以有自己的专属知识库,让AI一键查找回答,整体过程体验下来很简单高效,试一遍你就知道多简单。
相关素材:
通义灵码工具下载:https://tongyi.aliyun.com/lingma/download
项目下载:git clone https://github.com/s0md3v/roop.git
虚拟环境创建:conda create --name roop python=3.10
ffmpeg下载:https://ffmpeg.org/
来!体验一下
点击下方链接,体验用通义灵码实现开源项目一键部署,玩转开源项目上手实操,还能领取通义灵码超大定制鼠标垫哦~
活动专区:https://developer.aliyun.com/topic/lingma/202407