无需训练即可创建数字人,字节PersonaTalk视频口型编辑超SOTA

简介: 字节跳动研究人员提出了PersonaTalk,一种创新的音频驱动视觉配音方法,通过两阶段框架实现高保真度和个性化的口型同步视频生成。该方法无需特定人物训练,具有广泛的应用前景。

在计算机视觉和机器学习领域,数字人技术一直备受关注。其中,音频驱动的视觉配音(Audio-driven Visual Dubbing)是一个具有广泛应用前景的方向,例如在数字人口腔广播、视频翻译和视频内容修改等方面。然而,在合成准确的口型同步时,如何保持和突出说话者的个性(如说话风格和面部细节)仍然是一个挑战。

为了解决这个问题,字节跳动的研究人员提出了一种名为PersonaTalk的创新方法。该方法是一个基于注意力的两阶段框架,包括几何构造和面部渲染两个阶段。在几何构造阶段,PersonaTalk使用一种风格感知的音频编码模块,通过一个交叉注意力层将说话风格注入到音频特征中。然后,这些风格化的音频特征用于驱动说话者的模板几何,以获得口型同步的几何。在面部渲染阶段,PersonaTalk使用一个双注意力面部渲染器,它由两个并行的交叉注意力层组成,分别称为Lip-Attention和Face-Attention。这些注意力层从不同的参考帧中采样纹理,以渲染整个面部。

PersonaTalk方法具有以下几个优势和创新点:

  1. 高保真度和个性化:通过将说话风格注入到音频特征中,并使用双注意力面部渲染器来保留面部细节,PersonaTalk能够生成高保真度和个性化的口型同步视频。
  2. 无需特定人物训练:作为通用框架,PersonaTalk不需要针对特定人物进行训练或微调,因此可以应用于任何说话者。
  3. 竞争性性能:尽管是通用框架,但PersonaTalk的性能可以与特定人物的方法相媲美。
  4. 广泛的实验和用户研究:研究人员进行了广泛的实验和用户研究,以证明PersonaTalk的优势,包括在视觉质量、口型同步准确性和个性保持方面的优势。

为了评估PersonaTalk的性能,研究人员将其与几种最先进的方法进行了比较,包括Wav2Lip、VideoRetalking、DINet和IP_LAP。这些方法在口型同步和个性保持方面存在一些局限性,例如视觉质量差、口型同步不准确或个性不突出。相比之下,PersonaTalk在所有这些方面都表现出更好的性能。

研究人员通过定量和定性实验以及用户研究来评估PersonaTalk的性能。在定量实验中,PersonaTalk在视觉质量、口型同步准确性和个性保持方面都表现出更好的性能。在定性实验中,研究人员展示了PersonaTalk生成的视频与原始视频的比较,证明了其在保留说话者个性和面部细节方面的优势。在用户研究中,研究人员进行了一项Mean Opinion Score(MOS)评估,其中人类评估者对PersonaTalk和其他方法生成的视频进行了评分。结果显示,PersonaTalk在所有三个方面(个性保持、口型同步准确性和视觉质量)都表现出更好的性能。

PersonaTalk是一种创新的音频驱动视觉配音方法,通过将说话风格注入到音频特征中,并使用双注意力面部渲染器来保留面部细节,能够生成高保真度和个性化的口型同步视频。该方法无需特定人物训练,并具有竞争性性能。广泛的实验和用户研究证明了其在视觉质量、口型同步准确性和个性保持方面的优势。

尽管PersonaTalk取得了显著的成果,但仍有一些局限性需要解决。例如,由于训练数据的多样性有限,PersonaTalk在驱动非人类角色(如卡通人物)时可能表现出较低的有效性。此外,在面部生成过程中,如果面部姿态较大,可能会出现伪影。

在未来,研究人员可以探索如何进一步提高PersonaTalk的性能,例如通过增加训练数据的多样性或改进面部生成算法。此外,研究人员还可以探索如何将PersonaTalk应用于其他领域,例如虚拟现实或游戏开发。

论文链接:https://arxiv.org/pdf/2409.05379

目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【ACL2024】基于动态辅助融合的大模型序列编辑
近日,阿里云人工智能平台PAI与集团安全部内容安全算法团队、华东师范大学何晓丰教授团队合作,在自然语言处理顶级会议ACL2024上发表论文《DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models》。
|
7月前
|
前端开发 计算机视觉
InstantStyle,无需训练,风格保留文生图
InstantStyle 是一个通用框架,它采用两种简单但有效的技术来实现风格和内容与参考图像的有效分离。
|
2月前
|
机器学习/深度学习 JSON 算法
实例分割笔记(一): 使用YOLOv5-Seg对图像进行分割检测完整版(从自定义数据集到测试验证的完整流程)
本文详细介绍了使用YOLOv5-Seg模型进行图像分割的完整流程,包括图像分割的基础知识、YOLOv5-Seg模型的特点、环境搭建、数据集准备、模型训练、验证、测试以及评价指标。通过实例代码,指导读者从自定义数据集开始,直至模型的测试验证,适合深度学习领域的研究者和开发者参考。
656 3
实例分割笔记(一): 使用YOLOv5-Seg对图像进行分割检测完整版(从自定义数据集到测试验证的完整流程)
|
6月前
|
人工智能 自然语言处理 机器人
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
【6月更文挑战第26天】字节跳动的Seed-TTS是先进的文本转语音系统,生成与人类语音难辨别的声音,并允许编辑。模型通过语音、文本编码器、解码器和声码器实现高保真、可控及多样化的语音生成。应用于智能客服、有声读物、导航,提升用户体验。虽在多模态任务、长文本生成、实时应用及隐私问题上面临挑战[[arxiv.org/pdf/2406.02430](https://arxiv.org/pdf/2406.02430)]。
126 7
|
5月前
|
人工智能 监控 Serverless
函数计算产品使用问题之sdXL 1.0模型启动无效,该怎么办
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
YOLOv8打印模型结构配置信息并查看网络模型详细参数:参数量、计算量(GFLOPS)
YOLOv8打印模型结构配置信息并查看网络模型详细参数:参数量、计算量(GFLOPS)
|
6月前
|
机器学习/深度学习 自然语言处理 算法
【CV大模型SAM(Segment-Anything)】真是太强大了,分割一切的SAM大模型使用方法:可通过不同的提示得到想要的分割目标
【CV大模型SAM(Segment-Anything)】真是太强大了,分割一切的SAM大模型使用方法:可通过不同的提示得到想要的分割目标
|
7月前
|
机器学习/深度学习 人工智能 物联网
加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了
【5月更文挑战第9天】字节跳动研究团队推出Hyper-SD框架,实现快速图像生成,仅需1步即可达SOTA水平。该框架采用TSCD技术减少误差,整合ReFL优化加速模型,提高图像质量。在1步推理时,Hyper-SDXL在CLIP和Aes Score上超越SDXL-Lightning。开源LoRA插件促进社区发展,但可能牺牲部分模型通用性,未来仍需关注用户需求多样性。[论文链接](https://arxiv.org/abs/2404.13686)
85 1
|
7月前
|
API Python
对于超过5000字符的文本,建议使用批量翻译接口
对于超过5000字符的文本,建议使用批量翻译接口
79 4
|
7月前
|
API Python
可以将文本按照每一批5000个字符进行分割,然后依次调用批量翻译接口进行翻译
可以将文本按照每一批5000个字符进行分割,然后依次调用批量翻译接口进行翻译
45 1