基于开源技术的数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s

简介: 魔搭社区最近上线了基于开源技术的数字人实时对话demo,无需预训练即可使用自定义的数字人形象进行实时对话,支持语音输入和实时对话。

魔搭社区最近上线了基于开源技术的数字人实时对话demo,无需预训练即可使用自定义的数字人形象进行实时对话,支持语音输入和实时对话。

项目链接:

https://www.modelscope.cn/studios/AI-ModelScope/video_chat

生成的数字人效果belike:

无需预训练即可使用自定义的数字人形象进行实时对话,支持选择不同的数字人形象和音色,对话首包延迟可低至3s。

基于开源技术,该项目采用模块化系统设计,各模块均可快速更换,开发者可以自由扩展和优化,适用于多种应用场景,包括但不限于直播、新闻播报和聊天助手等。

此外,该项目基于Gradio 5实现流式视频输出,方便部署和快速构建交互式数字人应用。


项目介绍

现有的热门开源数字人项目主要有以下几个:

Linly Talker

基于Gradio的数字人对话项目,多模型集成,功能丰富,但不支持实时对话和流式输出。

Linly-Talker:https://github.com/Kedreamix/Linly-Talker


LiveTalking

基于流媒体的数字人生成项目,数字人响应快,但交互界面比较简陋,且需要配置服务器,部署难度较高。

LiveTalking:https://github.com/lipku/LiveTalking


awesome-digital-human-live2d

基于Dify编排的数字人互动项目,轻量化,交互方式丰富,但数字人形象不够真实,且不支持口型同步。

awesome-digital-human-live2d:https://github.com/wan-h/awesome-digital-human-live2d

针对现有开源项目存在的问题,本项目实现了一个基于开源的技术方案、支持语音输入和实时对话、数字人形象真实且口型同步、可在线试用的开源数字人实时对话demo。


技术选型

由于目前缺乏效果较好的开源端到端语音/视频对话模型,本项目采用多模块级联的技术方案。

首先,使用语音识别(ASR)模块将用户输入的语音转为文本,然后将该文本输入大语言模型(LLM)模块生成相应的文本回复,文本转语音(TTS)模块会根据这部分文本内容进行语音合成,最后使用该语音驱动说话人生成(THG)模块,得到唇形同步的数字人说话视频,实现用户语音输入、数字人视频输出的对话效果。

此外,为了方便在线试用和本地快速部署,使用流行的Gradio框架来构建交互式应用。

接下来介绍一下各个模块使用的开源技术。


语音识别(Automatic Speech Recognition,ASR)模块负责将用户输入的语音转化为文本。本项目选用了提供工业级语音识别的工具包FunASR。

FunASR:https://github.com/modelscope/FunASR


与PaddleSpeech、kaldi等同类项目相比,FunASR具有更加丰富的功能,包括语音识别、语音端点检测、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。

不仅方便开发者在现有demo的基础上进行扩展,加入更加丰富的语音功能;还便于部署,能够提供高精度、高效率的语音识别服务。

大语言模型(Large Language Model,LLM)模块负责生成回复内容。

本项目选用了目前备受关注的开源LLM——通义千问Qwen,来生成对话结果。

Qwen:https://github.com/QwenLM


为了提高LLM模块的响应速度且不影响对话效果,使用了轻量级模型来支持日常聊天场景。如果开发者希望扩展到其他应用场景,可以选用参数规模更大的模型或多模态LLM如Qwen-VL、Qwen-Audio等,以支持更复杂的对话场景。

本项目提供了单轮对话和互动对话两种模式,其中互动对话模式使用OpenAI的meta-prompt生成提示词,每次只回复较短的内容,从而实现一问一答的互动效果。


文本转语音(Text to Speech,TTS)模块负责将生成的回复内容转化为自然的语音。本项目选用了支持中文语音合成的热门项目GPT-SoVITS

GPT-SoVITS:https://github.com/RVC-Boss/GPT-SoVITS


GPT-SoVITS针对推理速度进行了工程优化,支持并行推理,从而提高了TTS的响应速度。相比之下,另一个热门项目ChatTTS虽然提供了更加接近真人的语气和精细的韵律特征,但推理速度较慢,且在输入文本较短时韵律优势不明显。

目前来看,GPT-SoVITS更加适合实时对话场景。

此外,机器性能有限的开发者还可以选择使用开源项目edge-tts来进行语音合成,该项目利用微软Edge浏览器的免费在线语音合成服务,能够提供比GPT-SoVITS更快的合成速度。

demo还提供了开源项目CosyVoice的API调用,由阿里云大模型服务平台百炼(Model Studio)支持。


说话人生成(Talking Head Generation,THG)模块根据输入的语音生成一段人物说话视频。

本项目选用了目前实时性最好的THG方案MuseTalk。

MuseTalk:https://github.com/TMElyralab/MuseTalk

MuseTalk只对输入视频中人物嘴唇周围的图像进行处理,将输入的图片和音频编码后使用交叉注意力机制进行融合,然后使用轻量化的Unet完成推理。

在完成预处理的情况下,MuseTalk在V100上可以达到30fps以上的处理速度,能够满足当前场景下数字人实时生成的要求。


与其他开源唇形同步方案(Wav2Lip、TalkLip、VideoRetalking等)相比,MuseTalk在提高生成速度和视频分辨率的同时,保留了较好的唇形同步效果,并且无需额外训练即可完成推理。

相比基于扩散模型的开源方案(Echomimic、Vasa-1等),虽然唇形同步方案生成的视频结果不够多样化,但考虑到基于扩散模型的方案通常需要数分钟的生成时间以及巨大的训练/推理开销,它们显然不适合实时对话场景。


更进一步地说,由于唇形同步方案是基于给定的人物视频生成结果,可以通过增加输入人物视频的动作和表情的丰富度来优化整体的观感。


如果需要根据输入的人物图片生成视频,可以使用MuseTalk团队的配套开源项目MuseV和MusePose来生成有表情和动作的人物视频,也可以使用图生视频模型来生成满足需求的结果。

如果不受限于特定的人物形象,还可以利用文生视频模型来发挥想象力。


前后端 部分选用了适合做在线demo展示和本地快速部署的Gradio,为了实现视频的流式传输,本项目使用了Gradio 5的Video Streaming功能。

此外,本项目还使用了ModelScope提供的高阶自定义Gradio组件库(https://www.modelscope.cn/studios/modelscope/modelscope-studio),其中包括升级版的chatbot组件,支持输出图片、视频等多模态内容。同时,Lifecycle组件和Gradio的State组件能够管理不同用户的聊天记录。利用这些组件,开发者无需任何前端知识即可实现功能丰富的在线交互式应用。

系统架构

考虑到LLM、TTS和THG这三个模块均需要一定的处理时间,如果等待前一个模块完全结束后再开始处理,则无法达到实时对话的要求。为了解决这一问题,本项目进行以下处理:

  • 对所选开源方案的代码进行了重构,将模型的初始化与推理过程分离开,并在正式推理前进行一次模型热身,以避免首次推理时产生额外的初始化开销,提高了模型的推理速度。
  • 采用了支持流式输出的并行流水线,边推理边播放,提高了数字人的响应速度。

下面展开来讲讲这个流式输出的并行流水线。

通过使用LLM的流式输出模式,系统在收到一定数量的文本后即可启动后续处理。基于以下考虑,本项目选择以句子为单位进行处理:

  • TTS模块的GPT-SoVITS需要根据输入文本的上下文来决定语音的语调、停顿等韵律,为了确保语音的流畅性,需要等待LLM输出若干完整句子后再进行TTS处理。
  • THG模块的MuseTalk需要一定长度的音频上下文来进行唇形同步推理。
  • Gradio的Video组件只能接收带音轨的视频片段而非字节流,还需要将TTS模块输出的音频和THG模块输出的视频帧使用ffmpeg工具合成ts或mp4格式的视频。

在此基础上,本项目维护多个队列,分别保存LLM生成的句子、TTS生成的音频和THG生成的视频帧,并结合多线程进行并行处理。这使得在完成第一个句子的处理后即可开始数字人的响应,边推理边播放,极大地降低了用户的等待时间。

上图中绿色标注部分所需的处理时间即为与数字人对话的首包延迟。

考虑到MuseTalk的推理耗时与输入音频的长度正相关,为了确保边推理边播放的流畅性,研究人员表示需要尽可能保证每次处理的片段长度均匀。

鉴于不同句子长度不一致,本项目设定了一个最小长度,当且仅当LLM缓冲区中的句子长度超过这个值时,将这部分内容作为一个包送入流水线开始处理。这个最小长度需要根据GPU性能动态调整,以平衡首包延迟和整体流畅度。

时延分析

以语音输入“今天天气怎么样”为例,研究人员在单张A100上测试了各个模块的用时和播放延迟。

为了确保后续包的流畅性,最小长度被设定为10个字符,即在LLM生成的句子累计超过10个字符后才开始处理。这种设置确保在流式播放时,后续包具有较低的延迟。对于首包,用户感知的播放延迟是所有模块耗时之和。从上图中可以看出,除了首包之外,后续包的播放延迟均小于0.5秒。由于句子之间本身存在停顿,这种延迟对用户体验几乎没有影响。

本地部署

如果想在本地运行本项目,可参考项目的README完成环境配置,支持更换各个模块的技术选型,支持加入自定义的数字人音色和形象视频。

下一步,本项目将会从以下几个方面展开优化:

  • 链路优化:目前THG模块需要接受一段完整的音频作为输入,包与包之间的延迟会受音频长度的影响。计划对这部分链路进行优化,以提高整体性能。
  • 端到端语音聊天:OpenAI在本月初发布了端到端的实时语音聊天API,可以取代现有的级联链路,有效缩短数字人的响应时间。待OpenAI上线正式API或有其他开源的端到端方案后,将进行更新。
  • 流式视频播放:目前Gradio 5的Video Streaming功能基于HLS协议实现。计划在后续版本中采用性能更好的方案,以提升用户体验。


对本项目感兴趣的小伙伴可以试用在线demo~

项目链接:

https://www.modelscope.cn/studios/AI-ModelScope/video_chat

项目README:

https://www.modelscope.cn/studios/AI-ModelScope/video_chat/file/view/master?fileName=README.md&status=1

创空间体验地址:

https://www.modelscope.cn/studios/AI-ModelScope/video_chat

代码仓库:

https://github.com/Henry-23/VideoChat


点击链接👇,即可跳转体验~

https://www.modelscope.cn/studios/AI-ModelScope/video_chat

相关文章
|
4天前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
7天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
4天前
|
人工智能 运维 双11
2024阿里云双十一云资源购买指南(纯客观,无广)
2024年双十一,阿里云推出多项重磅优惠,特别针对新迁入云的企业和初创公司提供丰厚补贴。其中,36元一年的轻量应用服务器、1.95元/小时的16核60GB A10卡以及1元购域名等产品尤为值得关注。这些产品不仅价格亲民,还提供了丰富的功能和服务,非常适合个人开发者、学生及中小企业快速上手和部署应用。
|
13天前
|
人工智能 弹性计算 文字识别
基于阿里云文档智能和RAG快速构建企业"第二大脑"
在数字化转型的背景下,企业面临海量文档管理的挑战。传统的文档管理方式效率低下,难以满足业务需求。阿里云推出的文档智能(Document Mind)与检索增强生成(RAG)技术,通过自动化解析和智能检索,极大地提升了文档管理的效率和信息利用的价值。本文介绍了如何利用阿里云的解决方案,快速构建企业专属的“第二大脑”,助力企业在竞争中占据优势。
|
14天前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
3936 2
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
4天前
|
算法 安全 网络安全
阿里云SSL证书双11精选,WoSign SSL国产证书优惠
2024阿里云11.11金秋云创季活动火热进行中,活动月期间(2024年11月01日至11月30日)通过折扣、叠加优惠券等多种方式,阿里云WoSign SSL证书实现优惠价格新低,DV SSL证书220元/年起,助力中小企业轻松实现HTTPS加密,保障数据传输安全。
499 3
阿里云SSL证书双11精选,WoSign SSL国产证书优惠
|
10天前
|
安全 数据建模 网络安全
2024阿里云双11,WoSign SSL证书优惠券使用攻略
2024阿里云“11.11金秋云创季”活动主会场,阿里云用户通过完成个人或企业实名认证,可以领取不同额度的满减优惠券,叠加折扣优惠。用户购买WoSign SSL证书,如何叠加才能更加优惠呢?
985 3
|
8天前
|
机器学习/深度学习 存储 人工智能
白话文讲解大模型| Attention is all you need
本文档旨在详细阐述当前主流的大模型技术架构如Transformer架构。我们将从技术概述、架构介绍到具体模型实现等多个角度进行讲解。通过本文档,我们期望为读者提供一个全面的理解,帮助大家掌握大模型的工作原理,增强与客户沟通的技术基础。本文档适合对大模型感兴趣的人员阅读。
397 16
白话文讲解大模型| Attention is all you need
|
8天前
|
算法 数据建模 网络安全
阿里云SSL证书2024双11优惠,WoSign DV证书220元/年起
2024阿里云11.11金秋云创季火热进行中,活动月期间(2024年11月01日至11月30日),阿里云SSL证书限时优惠,部分证书产品新老同享75折起;通过优惠折扣、叠加满减优惠券等多种方式,阿里云WoSign SSL证书将实现优惠价格新低,DV SSL证书220元/年起。
560 5
|
4天前
|
安全 网络安全
您有一份网络安全攻略待领取!!!
深入了解如何保护自己的云上资产,领取超酷的安全海报和定制鼠标垫,随时随地提醒你保持警惕!
694 1
您有一份网络安全攻略待领取!!!