一看就会的 AI 换脸项目教程!5分钟速通明星大模型开源项目一键部署

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
容器镜像服务 ACR,镜像仓库100个 不限时长
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 有了通义灵码的帮助,很多明星大模型项目实操过程中遇到的问题:查找错误、解释代码、优化代码、查找文档、代码补全等等都可以用通义灵码一键解决,而且准确率很高,加上灵活的实操环境,项目跑起来会非常高效。关键是通义灵码个人版还免费!

视频里,两个正在跳舞的小姐姐,你能看出什么异常吗?再放大点。


她们的动作表情完全一模一样,但右边的这位,是 AI 换脸,是不是完全看不出瑕疵。


这个就是非常爆火,并且在 GitHub 拥有25k star 的一个最新 AI 换脸项目 roop。短短几周星标人数就疯狂增长。它的效果非常真实,以后想看谁跳舞就可以看谁跳舞,想看谁演电影就能看谁演电影。


虽然说这个 AI 换脸项目已经开源,但市面上对于这块的详细教程并不多,而且不是要收费,就是生成的效果太假。


所以今天这期视频,就是一期保姆级教程 AI 换脸项目roop的视频教程。我们将用AI编程工具-通义灵码来进行实操教学,它是目前最受国内开发者欢迎的AI编程工具。有了通义灵码的帮助,很多明星大模型项目实操过程中遇到的问题:查找错误、解释代码、优化代码、查找文档、代码补全等等都可以用通义灵码一键解决,而且准确率很高,加上灵活的实操环境,项目跑起来会非常高效。关键是通义灵码个人版还免费!话不多说,直接开干。


实操演示

1. 以PyCharm开发环境为例,在文件菜单下点击设置。然后点击导航-插件,打开应用市场,搜索通义灵码(TONGYI Lingma),找到通义灵码后点击安装,然后登录自己阿里云账号就可以使用了。它这个像主流的编程语言和工具都是支持的。比如Visual Studio Code、Visual Studio、JetBrains IDEs。


2. 第一步,首先需要将roop项目的源代码克隆到我们的开发环境下。打开终端,在终端输入git clone https://github.com/s0md3v/roop.git 就可以将代码克隆到当前的工作目录下了。


3. 当我们面对一个全新的开发源代码库的时候,我们可以借助通义灵码来帮助我们熟悉各个程序文件。直接对话框内唤起@workspace,对他说,帮我梳理roop代码库的结构,它就会为你详细解释各个程序文件了,这样看是不是就一目了然了。


4. 然后我们要给电脑安装好FFmpeg,这个是图像处理领域经常使用的工具。像这种常用的工具说明文档我会放在团队知识库中,问通义灵码,它就会调用知识库提供详细的安装方法。在对话框内输入#team docs,然后就可以进行提问了。这也是通义灵码的一个核心能力叫企业知识库检索增强,在开发者使用通义灵码 IDE 插件时,可以结合企业上传的文档、文件等内容作为上下文进行回答,这样获得的答案也更贴合企业自己的特点。下载解压后进入 bin 目录,复制 bin 目录路径。在[编辑环境变量]表中将刚才复制的 bin目录路径粘贴进去,保存。


5. 为了不与之前配置的开发环境混淆,我们需要使用conda创建一个虚拟环境,在终端输入 conda create --name roop python=3.10。


6. 接下来,我们需要给显卡配置CUDA的开发环境。在终端输入


pip install torch==2.0.0+cu118 torchvision==0.15.1+cu118 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118


随后执行pip install -r requirements.txt来安装环境。


7. 这里遇到了路径报错。这个时候如果自己去一个一个检查代码会很费时间,AI编程工具能有效解决这个问题,我们可以打开通义灵码对话框,将报错的内容输入进对话框中,就一下知道哪里错了,此外,通义灵码也有一键修复问题的能力,只需要一键就能帮你快速修改bug。可以看到现在的绝对路径下没有 requirements.txt 这个文件,需要将路径切换到 roop 目录下。OK 指令能够被正确执行了。


8. 接下来,我们可以在终端中输入pip install onnxruntime-gpu来安装GPU版本的 onnxruntime-gpu。好了后就可以输入 python run.py 来执行我们的主程序。


9. 成功运行程序后,就可以选择想要换脸的照片和视频,然后点击 Start 开始处理视频。然后就搞定了。


10. 最后我们还可以对项目的参数做一些调整,像这个大模型的项目参数就会比较复杂不好理解,可以让通义灵码一键解释下,比如这个max-memory,让它来帮忙分析一下。原来这个是用来指定程序运行时最大的内存使用量的。我们可以尝试一下,将这个最大内存设置为8GB。我们可以在终端中输入 python run.py  --max-memory 8 程序被成功运行了起来。


当然输入的参数还涵盖了很多陌生的技术名词,这里也可以启动@workspace来理解这些变量比如说一个很重要的参数fps,询问下“代码里面出现了--keep-fps这个参数,能详细介绍一下这个参数的作用吗”,我们就能获得一个清晰的解释了。


因为过程有通义灵码的辅助,不仅可以快速对整个程序代码有清晰的理解、出现报错一键优化,还可以有自己的专属知识库,让AI一键查找回答,整体过程体验下来很简单高效,试一遍你就知道多简单。


相关素材:

通义灵码工具下载:https://tongyi.aliyun.com/lingma/download

项目下载:git clone https://github.com/s0md3v/roop.git

虚拟环境创建:conda create --name roop python=3.10

ffmpeg下载:https://ffmpeg.org/


来!体验一下


点击下方链接,体验用通义灵码实现开源项目一键部署,玩转开源项目上手实操,还能领取通义灵码超大定制鼠标垫哦~

活动专区:https://developer.aliyun.com/topic/lingma/202407

image.png

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
SVN版本控制系统
SVN是现在软件开发之中的主流软件版本控制工具,在工作之中利用SVN可以有效的解决多人开发的代码管理问题,本课程将为读者讲解SVN服务器的配置以及基于MyEclipse的SVN客户端插件的配置与使用,并且在讲解之中着重讲解了冲突的产生于解决。
相关文章
|
6天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
135 97
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
PeterCat:一键创建开源项目 AI 问答机器人,自动抓取 GitHub 仓库信息、文档和 issue 等构建知识库
PeterCat 是一款开源的智能答疑机器人,能够自动抓取 GitHub 上的文档和 issue 构建知识库,提供对话式答疑服务,帮助开发者和社区维护者高效解决技术问题。
41 7
PeterCat:一键创建开源项目 AI 问答机器人,自动抓取 GitHub 仓库信息、文档和 issue 等构建知识库
|
8天前
|
人工智能 Serverless API
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
68 8
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
|
2天前
|
人工智能 移动开发 JavaScript
如何用uniapp打包桌面客户端exe包,vue或者uni项目如何打包桌面客户端之electron开发-优雅草央千澈以开源蜻蜓AI工具为例子演示完整教程-开源代码附上
如何用uniapp打包桌面客户端exe包,vue或者uni项目如何打包桌面客户端之electron开发-优雅草央千澈以开源蜻蜓AI工具为例子演示完整教程-开源代码附上
|
4天前
|
人工智能 自然语言处理 前端开发
三大行业案例:AI大模型+Agent实践全景
本文将从AI Agent和大模型的发展背景切入,结合51Talk、哈啰出行以及B站三个各具特色的行业案例,带你一窥事件驱动架构、RAG技术、人机协作流程,以及一整套行之有效的实操方法。具体包含内容有:51Talk如何让智能客服“主动进攻”,带来约课率、出席率双提升;哈啰出行如何由Copilot模式升级为Agent模式,并应用到客服、营销策略生成等多个业务场景;B站又是如何借力大模型与RAG方法,引爆了平台的高效内容检索和强互动用户体验。
70 5
|
1天前
|
人工智能 供应链 安全
面向高效大模型推理的软硬协同加速技术 多元化 AI 硬件引入评测体系
本文介绍了AI硬件评测体系的三大核心方面:统一评测标准、平台化与工具化、多维度数据消费链路。通过标准化评测流程,涵盖硬件性能、模型推理和训练性能,确保评测结果客观透明。平台化实现资源管理与任务调度,支持大规模周期性评测;工具化则应对紧急场景,快速适配并生成报告。最后,多维度数据消费链路将评测数据结构化保存,服务于综合通用、特定业务及专业性能分析等场景,帮助用户更好地理解和使用AI硬件。
|
1天前
|
人工智能 自然语言处理 API
大模型编程(3)让 AI 帮我调接口
这是大模型编程系列第三篇,分享学习某云大模型工程师ACA认证免费课程的笔记。本文通过订机票和查天气的例子,介绍了如何利用大模型API实现函数调用,解决实际业务需求。课程内容详实,推荐感兴趣的朋友点击底部链接查看原文,完全免费。通过这种方式,AI可以主动调用接口并返回结果,极大简化了开发流程。欢迎在评论区交流实现思路。
28 1
|
4天前
|
人工智能 资源调度 调度
云上AI Infra解锁大模型创新应用
本节课程由阿里云智能集团资深技术专家王超分享,主题为AI基础设施的发展趋势。课程聚焦于AI Infra设计与Scaling Law,探讨了下一代AI基础设施的设计目标、功能升级及推理场景中的应用。主要内容包括高效支持大规模模型训练和推理、全球调度系统的设计、Rack level的Scale优化以及多租户容器化使用方式。通过这些改进,旨在提升并行效率、资源利用率及稳定性,推动AI基础设施迈向更高性能和更优调度的新阶段。
|
11天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
36 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务