AI 绘画Stable Diffusion 研究(十三)SD数字人制作工具SadTlaker使用教程

简介: AI 绘画Stable Diffusion 研究(十三)SD数字人制作工具SadTlaker使用教程

免责声明:
本案例所用安装包免费提供,无任何盈利目的。


大家好,我是风雨无阻。

想必大家经常看到,无论是在产品营销还是品牌推广时,很多人经常以数字人的方式来为自己创造财富。而市面上的数字人收费都比较昂贵,少则几千,多则上万。


那么如何才能免费制作属于自己的数字人视频呢?


其实很简单,只需要在stable diffusion上安装sadtalker插件就能轻松生成自己的数字人。


如果还没安装sadtalker插件的朋友,请查看我的上一篇文章AI 绘画Stable Diffusion 研究(十二)SD数字人制作工具SadTlaker插件安装教程


今天我们就来演示 如何使用SadTlaker插件制作一个会说话的数字人视频。

大家跟着我的步骤,赶紧实操起来,看看效果。


1、准备图片


图片: 准备一张人物正面图片,我们可以用sd 文生图或图生图功能生成,也可以是其他的图片。


这里再演示一下,使用sd 图生图,生成一张正面图片的步骤。

(1)、去C站找一张正面图作为参考


(2)、下载大模型: majicMIX realistic 麦橘写实 ,并把它放到 models\Stable-diffusion 目录下


然后重启 Stable-diffusion 让模型生效。

\sd-webui-aki-v4.2\models\Stable-diffusion



(3)、下载图片,并上传到图生图,然后设置相关参数

  • 上传图片
  • 设置正向提示词 、反向提示词
  • CLP 终止层数设置为:2
  • 设置随机种子
  • 设置采样方法
  • 设置重绘制尺寸
  • 开启面部修复(重要:不开启,人物面部会出现斑点或痣)





(4)、点击生成,可以获得一张人物正面图片


2、准备音频文件

音频文件格式: MP3或wav 文件。

音频文件允许的长度:由显存大小决定。

音频文件的生成:可以使用chatgpt 生成文案,再使用配音工具生成音频,保存起来。当然也可以自己录制音频,这里就不再详细演示。

这里为了演示,提前准备了一段 14s 左右的音频。


3、使用SadTlaker 合成数字人视频


(1)、功能栏区域,切换到SadTlaker 标签页


(2)、上传刚刚sd 生成好的人物正面图片


(3)、上传准备的音频文件


(4)、参数设置及详解

  • 姿态样式: 人脸姿态,一共47个数字,每个姿态都不一样,大家可自行测试选择喜欢的姿态。
  • 脸部模型分辨率:根据分辨率选择自己对口型的模型,如果图片较大就选择512。
  • 预处理:这个设置,与图生图中的设置相同。
  • 静止模式:更少的手势,需要和完整与处理一起使用。
  • 使用GFPGAN 增强面部: 是否高清化处理


这是我的设置,如下:


(5)、点击“生成”按钮,合成视频

视频会在预览窗口显示视频处理状态,控制台也能看到处理进度。

只需等待处理完成即可。


A、使用预处理完整+静止模式的方式生成的视频:

SD插件SadTlaker制作的会说话的数人

B、使用预处理裁剪 方式生成的视频:

SD插件SadTlaker制作的会说话的数人2


对比效果:

A 方式生成的视频动作幅度更小,但是图片使用的是原尺寸。

B 方式生成的视频动作幅度更大,图片被裁剪,但是效果更真实自然一些。

好了,SD数字人制作教程就到此结束。


相关文章
|
1月前
|
人工智能 Serverless
AI助理精准匹配------助力快速搭建Stable Difussion图像生成应用
【10月更文挑战第7天】过去在阿里云社区搭建Stable Diffusion图像生成应用需查阅在线实验室或官方文档,耗时且不便。现阿里云AI助理提供精准匹配服务,直接在首页询问AI助理即可获取详细部署步骤,简化了操作流程,提高了效率。用户可按AI助理提供的步骤快速完成应用创建、参数设置、应用部署及资源释放等操作,轻松体验Stable Diffusion图像生成功能。
|
1月前
|
人工智能 Serverless
AI助理精准匹配,为您推荐方案——如何添加一个Stable Difussion图像生成应用
介绍了一种利用AI助手快速获取并搭建Stable Diffusion图像生成应用的方法。用户只需在阿里云官网向AI助手提出需求,即可获得详细的实施方案。随后,按照AI助手提供的方案,通过函数计算部署应用,并进行测试。此过程显著提升了开发效率。
798 2
AI助理精准匹配,为您推荐方案——如何添加一个Stable Difussion图像生成应用
|
1月前
|
自然语言处理 IDE 测试技术
通义灵码史上最全使用教程:秀一秀AI编程新肌肉
通义灵码是阿里云推出的一款智能编码辅助工具,基于通义大模型,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等功能。它支持 Visual Studio Code 和 JetBrains IDEs,适配多 IDE 原生设计,帮助开发者高效、流畅地编码。官方提供了详细的下载和安装指南,以及丰富的功能介绍和使用指南。
267 3
|
1月前
|
人工智能
添加一个Stable Difussion图像生成应用,通过向AI助手简单的提问,即可快速搭建Stable Diffusion应用至自己的网站中,大幅提升开发效率。
添加一个Stable Difussion图像生成应用,通过向AI助手简单的提问,即可快速搭建Stable Diffusion应用至自己的网站中,大幅提升开发效率。
|
2月前
|
人工智能
在stable diffussion中完美修复AI图片
无论您的提示和模型有多好,一次性获得完美图像的情况很少见。修复小缺陷的不可或缺的方法是图像修复(inpainting)
在stable diffussion中完美修复AI图片
|
2月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
70 7
|
3月前
|
人工智能
Suno教程篇:音乐小白也能使用Suno AI零门槛创作音乐?从此只听AI写的歌!
本文是一篇Suno AI音乐创作工具的教程,指导音乐小白如何使用Suno AI零门槛创作音乐,包括准备工作、基础使用、歌曲风格的选择、歌词填入技巧,以及通过实例展示如何为不同场景生成背景音乐。
Suno教程篇:音乐小白也能使用Suno AI零门槛创作音乐?从此只听AI写的歌!
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
还不懂如何与AI高效交流?保姆级且全面的chatGPT提示词工程教程来啦!(一)基础篇
这篇文章是一篇保姆级的教程,旨在全面介绍如何与AI进行高效交流,包括ChatGPT的前世今生、应用场景以及提问的基础技巧。
还不懂如何与AI高效交流?保姆级且全面的chatGPT提示词工程教程来啦!(一)基础篇
|
2月前
|
人工智能 Linux iOS开发
AI超强语音转文本SenseVoice,本地化部署教程!
【9月更文挑战第7天】以下是AI超强语音转文本工具SenseVoice的本地化部署教程:首先确保服务器或计算机满足硬件和软件要求,包括处理器性能、内存及操作系统等。接着从官网下载适合的安装包,并按操作系统进行安装。配置音频输入设备和语言模型后,启动SenseVoice并测试其语音转文本功能。最后根据实际使用情况进行优化调整,并定期更新以获取最新功能。详细步骤需参照官方文档。
571 1
|
2月前
|
机器学习/深度学习 人工智能 测试技术
AI计算机视觉笔记二十五:ResNet50训练部署教程
该项目旨在训练ResNet50模型并将其部署到RK3568开发板上。首先介绍了ResNet50网络,该网络由何恺明等人于2015年提出,解决了传统卷积神经网络中的退化问题。项目使用车辆分类数据集进行训练,并提供了数据集下载链接。环境搭建部分详细描述了虚拟环境的创建和所需库的安装。训练过程中,通过`train.py`脚本进行了15轮训练,并可视化了训练和测试结果。最后,项目提供了将模型转换为ONNX和PT格式的方法,以便在RK3568上部署。

热门文章

最新文章

下一篇
无影云桌面