“数字人交互,与虚拟的自己互动”——用PaddleAvatar打造数字分身,探索人机交互的未来

简介: “数字人交互,与虚拟的自己互动”——用PaddleAvatar打造数字分身,探索人机交互的未来

你是否曾经幻想过与自己的虚拟人交互?现在,使用PaddleAvatar,您可以将自己的图像、音频和视频转化为一个逼真的数字人视频,与其进行人机交互

PaddleAvatar是一种基于PaddlePaddle深度学习框架的数字人生成工具,基于Paddle的许多套件,它可以将您的数字图像、音频和视频合成为一个逼真的数字人视频。除此之外,PaddleAvatar还支持进一步的开发,例如使用自然语言处理技术,将数字人视频转化为一个完整的人机交互系统,使得您能够与虚拟的自己进行真实的对话和互动。

使用PaddleAvatar,您可以将数字人视频用于各种场合,例如游戏、教育、虚拟现实等等。PaddleAvatar为您提供了一个自由创作的数字世界,让您的想象力得到了充分的释放!

所以,现在就使用PaddleAvatar,打造自己的数字分身,探索人机交互的未来吧!

github地址:https://github.com/Kedreamix/PaddleAvatar

🪀 环境说明

  • Anaconda
  • Python 3.8
  • paddlepaddle

⚙️ 1. 安装环境

我们需要安装paddlepaddle环境,环境的安装,可以看这里paddlepaddle安装,我自己安装的版本是2.3.2,应该2.4也是能正常运行的

conda install paddlepaddle-gpu==2.3.2 cudatoolkit=11.2 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/Paddle/ -c conda-forge

安装了paddlepaddle以后,可以安装所需要和对应的库,我已经写入requirements.txt中了

pip install -r requirements.txt


😀 2.PaddleAvator技术原理

🔮 3.网页部署(Streamlit)

这里可以使用streamlit进行网页端的部署,这样就利用可视化进行体验,这里可以看到有一个8501的端口,打开来即可看到网页

streamlit run avatar.streamlit.py

对于TTS,文字转语音来说,我设置了两种方式

  • PaddleSpeech语音合成,可选择多种声音和语调,可以调节语言和人
  • Azure微软语音合成,调用微软的API进行语音合成,不过需要填入密钥(这里不提供)

🔥 4.未来展望(人机交互)

我设计了一个基于自然语言处理、语音和图像处理等人工智能技术的人机交互系统。该系统致力于实现高度逼真的数字人多模态交互,以提供更加自然和亲密的用户体验。如图所示,该系统由四个核心模块组成:

(1) 自动语音识别(ASR)模块,用于将用户的语音输入转化为文本信息。

(2) 对话系统(DS),用于接收ASR模块输出的文本信息,并进行对话处理。

(3) 文本到语音(TTS)模块,用于将DS模块输出的文本信息转化为高度逼真的语音信息。

(4) 数字人生成模块,用于预处理模型输入的图片和视频,以提取面部特征。接下来,该模型利用TTS模块将低维语音信号映射到高维视频信号,包括嘴巴、表情和动作等。最后,该模型使用神经网络来融合特征和多模态输出视频,并将其在客户端上显示。

🎯 TO DO LIST

在本仓库 https://github.com/Kedreamix/PaddleAvatar 之中,已经实现了第3和第4个模块,但是离完整的人机交互系统差一部分,所以这一部分还可以继续努力

  • 加入表情迁移(丰富头部动作信息)
  • 实时语音识别(人与数字人之间就可以通过语音进行对话交流)
  • 语音克隆技术(语音克隆合成自己声音,提高数字人分身的真实感和互动体验)
  • 类GPT对话系统(提高数字人的交互性和真实感,增强数字人的智能)

✨ AIstudio在线体验

不过似乎AIstudio的应用部署加载好久,不知道有什么快的方法

https://aistudio.baidu.com/aistudio/projectdetail/6154230

📑 参考资料

  • https://github.com/JiehangXie/PaddleBoBo
  • https://github.com/PaddlePaddle/PaddleSpeech
  • https://github.com/PaddlePaddle/PaddleGAN


相关文章
|
10月前
|
人工智能 搜索推荐 vr&ar
数字人:虚拟世界的“真我”
数字人:虚拟世界的“真我”
111 1
|
22天前
|
机器学习/深度学习 人工智能 异构计算
SkyReels-A1:解放动画师!昆仑开源「数字人制造机」:一张照片生成逼真虚拟主播,表情连眉毛颤动都可控
SkyReels-A1 是昆仑万维开源的首个 SOTA 级别表情动作可控的数字人生成模型,支持高保真肖像动画生成和精确的表情动作控制。
177 23
|
3月前
|
人工智能 自然语言处理 前端开发
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
Lobe Vidol是一款开源的AI数字人交互平台,允许用户创建和互动自己的虚拟偶像。该平台提供流畅的对话体验、丰富的动作姿势库、优雅的用户界面设计以及多种技术支持,如文本到语音和语音到文本技术。Lobe Vidol适用于娱乐互动、在线教育、客户服务、品牌营销和社交媒体等多个应用场景。
239 7
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
|
机器学习/深度学习 人工智能 自然语言处理
基于RTMP的智慧数字人|AI数字人传输技术方案探讨
随着智慧数字人、AI数字人的兴起,越来越多的公司着手构建全息、真实感数字角色等技术合成的数字仿真人虚拟形象,通过“虚拟形象+语音交互(T-T-S、ASR)+自然语言理解(NLU)+深度学习”,构建适用于数字客服、虚拟展厅讲解、 智慧城市、智慧医疗、智慧教育等场景,通过人机可视化语音交互,释放人员基础劳动力,降低运营成本,提升智慧交互体验。
194 0
|
人工智能
AI 绘画Stable Diffusion 研究(十二)SD数字人制作工具SadTlaker插件安装教程
AI 绘画Stable Diffusion 研究(十二)SD数字人制作工具SadTlaker插件安装教程
1043 0
|
10月前
|
数据采集 人工智能 Rust
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
1310 0
|
1月前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
135 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
|
2天前
|
存储 人工智能 Docker
Heygem:开源数字人克隆神器!1秒视频生成4K超高清AI形象,1080Ti显卡也能轻松跑
Heygem 是硅基智能推出的开源数字人模型,支持快速克隆形象和声音,30秒内完成克隆,60秒内生成4K超高清视频,适用于内容创作、直播、教育等场景。
215 0
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AigcPanel:开源的 AI 虚拟数字人系统,一键安装开箱即用,支持视频合成、声音合成和声音克隆
AigcPanel 是一款开源的 AI 虚拟数字人系统,支持视频合成、声音克隆等功能,适用于影视制作、虚拟主播、教育培训等多种场景。
442 12
AigcPanel:开源的 AI 虚拟数字人系统,一键安装开箱即用,支持视频合成、声音合成和声音克隆
|
7月前
|
人工智能 搜索推荐 语音技术
青否AI数字人抖音稳定开播,数字人带货优势及注意事项!
AI数字人直播带货革新电商领域,虚拟形象外形逼真且互动流畅,改变购物体验。青否数字人采用【实时改写实时生成】确保内容不重复,并通过AI智能回复即时解答用户问题,解决非实时内容及低频互动违规。数字人技术具24/7工作能力和个性化互动优势,降低成本提高效率。青否数字人直播解决方案实现降本增效,助力商家全天候直播带货,提升销售额。
青否AI数字人抖音稳定开播,数字人带货优势及注意事项!

热门文章

最新文章