无需训练即可创建数字人,字节PersonaTalk视频口型编辑超SOTA

简介: 字节跳动研究人员提出了PersonaTalk,一种创新的音频驱动视觉配音方法,通过两阶段框架实现高保真度和个性化的口型同步视频生成。该方法无需特定人物训练,具有广泛的应用前景。

在计算机视觉和机器学习领域,数字人技术一直备受关注。其中,音频驱动的视觉配音(Audio-driven Visual Dubbing)是一个具有广泛应用前景的方向,例如在数字人口腔广播、视频翻译和视频内容修改等方面。然而,在合成准确的口型同步时,如何保持和突出说话者的个性(如说话风格和面部细节)仍然是一个挑战。

为了解决这个问题,字节跳动的研究人员提出了一种名为PersonaTalk的创新方法。该方法是一个基于注意力的两阶段框架,包括几何构造和面部渲染两个阶段。在几何构造阶段,PersonaTalk使用一种风格感知的音频编码模块,通过一个交叉注意力层将说话风格注入到音频特征中。然后,这些风格化的音频特征用于驱动说话者的模板几何,以获得口型同步的几何。在面部渲染阶段,PersonaTalk使用一个双注意力面部渲染器,它由两个并行的交叉注意力层组成,分别称为Lip-Attention和Face-Attention。这些注意力层从不同的参考帧中采样纹理,以渲染整个面部。

PersonaTalk方法具有以下几个优势和创新点:

  1. 高保真度和个性化:通过将说话风格注入到音频特征中,并使用双注意力面部渲染器来保留面部细节,PersonaTalk能够生成高保真度和个性化的口型同步视频。
  2. 无需特定人物训练:作为通用框架,PersonaTalk不需要针对特定人物进行训练或微调,因此可以应用于任何说话者。
  3. 竞争性性能:尽管是通用框架,但PersonaTalk的性能可以与特定人物的方法相媲美。
  4. 广泛的实验和用户研究:研究人员进行了广泛的实验和用户研究,以证明PersonaTalk的优势,包括在视觉质量、口型同步准确性和个性保持方面的优势。

为了评估PersonaTalk的性能,研究人员将其与几种最先进的方法进行了比较,包括Wav2Lip、VideoRetalking、DINet和IP_LAP。这些方法在口型同步和个性保持方面存在一些局限性,例如视觉质量差、口型同步不准确或个性不突出。相比之下,PersonaTalk在所有这些方面都表现出更好的性能。

研究人员通过定量和定性实验以及用户研究来评估PersonaTalk的性能。在定量实验中,PersonaTalk在视觉质量、口型同步准确性和个性保持方面都表现出更好的性能。在定性实验中,研究人员展示了PersonaTalk生成的视频与原始视频的比较,证明了其在保留说话者个性和面部细节方面的优势。在用户研究中,研究人员进行了一项Mean Opinion Score(MOS)评估,其中人类评估者对PersonaTalk和其他方法生成的视频进行了评分。结果显示,PersonaTalk在所有三个方面(个性保持、口型同步准确性和视觉质量)都表现出更好的性能。

PersonaTalk是一种创新的音频驱动视觉配音方法,通过将说话风格注入到音频特征中,并使用双注意力面部渲染器来保留面部细节,能够生成高保真度和个性化的口型同步视频。该方法无需特定人物训练,并具有竞争性性能。广泛的实验和用户研究证明了其在视觉质量、口型同步准确性和个性保持方面的优势。

尽管PersonaTalk取得了显著的成果,但仍有一些局限性需要解决。例如,由于训练数据的多样性有限,PersonaTalk在驱动非人类角色(如卡通人物)时可能表现出较低的有效性。此外,在面部生成过程中,如果面部姿态较大,可能会出现伪影。

在未来,研究人员可以探索如何进一步提高PersonaTalk的性能,例如通过增加训练数据的多样性或改进面部生成算法。此外,研究人员还可以探索如何将PersonaTalk应用于其他领域,例如虚拟现实或游戏开发。

论文链接:https://arxiv.org/pdf/2409.05379

目录
相关文章
|
3天前
|
人工智能 搜索推荐 物联网
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放
《MimicTalk: 快速生成个性化3D数字人》介绍了一种创新方法,利用3D大模型在15分钟内训练出高质量、个性化的数字人模型。该方法基于NeRF技术,通过“静态-动态混合适应”实现高效训练,显著提升了数字人在视频会议、虚拟现实等领域的应用潜力。论文链接:https://arxiv.org/pdf/2410.06734
25 4
|
6月前
|
算法
VASA-1:实时音频驱动的数字人说话面部视频生成技术
【6月更文挑战第8天】VASA-1是实时音频驱动的数字人面部视频生成技术,能根据输入音频精准生成匹配的面部表情。具备实时性、高准确性和适应性,适用于虚拟主播、在线教育和影视娱乐等领域。简单示例代码展示了其工作原理。尽管面临情感理解和硬件优化等挑战,但随着技术发展,VASA-1有望在更多领域广泛应用,开启生动数字世界的新篇章。
309 5
|
7月前
|
机器学习/深度学习 人工智能 TensorFlow
生成完美口型同步的 AI 数字人视频
在当今数字媒体和人工智能技术的推动下,生成完美口型同步的AI数字人视频成为备受关注的研究领域。本研究旨在开发一种技术,能够实现生成完美口型同步的AI数字人视频,使虚拟人物的口型与语音内容完美匹配。采用了深度学习方法,结合了语音识别、面部运动生成和视频合成技术,以实现这一目标。通过语音识别模型将输入的文本转换为音频波形,利用面部运动生成模型根据音频波形生成对应的面部动作序列,这些动作序列可以准确地反映出发音的口型和面部表情,最后生成口型同步的AI数字人视频。这项技术具有广泛的应用前景,可用于虚拟主持人、教育视频、学习平台等领域,提升视频内容的真实感和沟通效果。
423 0
|
7月前
|
机器学习/深度学习 搜索推荐 小程序
数字人播报视频这么流行,你想要做一个吗
数字人播报视频这么流行,你想要做一个吗
143 0
|
7月前
|
存储 机器学习/深度学习 数据采集
云存储在AIOps、数字人以及训练推理场景的最佳实践
12月2日,阿里云存储团队、通义实验室、阿里云培训中心在深圳粤海国际化企业服务交流中心联合举办了云存储技术实战营之数据+AI专场沙龙,吸引了众多开发者和企业代表的关注。
104836 3
|
人工智能 达摩院 语音技术
用1张图像生成数字人,快来制作你的AI视频吧~
最近魔搭上线了一项新能力——仅需输入单张人像照片,利用文字或语音驱动即可秒级生成数字人AI视频!这让小编的短视频UP梦又重新启航燃起了希望!它完全解救了社恐星人,图生视频能力替你说话、唱歌、讲段子、吟诗....无需再对着摄像头NG,一整个绝绝子叠buff!
用1张图像生成数字人,快来制作你的AI视频吧~
|
机器学习/深度学习 云安全 人工智能
文心千帆:PPT 制作、数字人主播等应用场景惊艳到我了,下面给ERNIE-Bot|BLOOMZ大模型调优、RLHF训练详细教程
文心千帆:PPT 制作、数字人主播等应用场景惊艳到我了,下面给ERNIE-Bot|BLOOMZ大模型调优、RLHF训练详细教程
文心千帆:PPT 制作、数字人主播等应用场景惊艳到我了,下面给ERNIE-Bot|BLOOMZ大模型调优、RLHF训练详细教程
|
机器学习/深度学习 人工智能 算法
CVPR 2022 Oral | 创建一个属于你的高保真数字人,一段单目自转视频就够了
CVPR 2022 Oral | 创建一个属于你的高保真数字人,一段单目自转视频就够了
137 0
|
7月前
|
传感器 人工智能 搜索推荐
|
1月前
|
API 语音技术 开发者
基于开源技术的数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s
魔搭社区最近上线了基于开源技术的数字人实时对话demo,无需预训练即可使用自定义的数字人形象进行实时对话,支持语音输入和实时对话。

热门文章

最新文章