Sonic:自动对齐音频与唇部动作,一键合成配音动画!腾讯与浙大联合推出音频驱动肖像动画生成框架

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: Sonic 是由腾讯和浙江大学联合开发的音频驱动肖像动画框架,支持逼真的唇部同步、丰富的表情和头部动作、长时间稳定生成,并提供用户可调节性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 Sonic 这个由腾讯和浙江大学联合推出的音频驱动肖像动画框架。

🚀 快速阅读

Sonic 是一个基于全局音频感知的肖像动画生成框架,能够生成逼真的面部表情和动作。

  1. 核心功能:精确的唇部同步、丰富的表情和头部动作、长时间稳定生成。
  2. 技术原理:上下文增强音频学习、运动解耦控制器、时间感知位置偏移融合机制。

Sonic 是什么

Sonic-demo

Sonic 是由腾讯和浙江大学联合开发的音频驱动肖像动画框架,旨在通过全局音频感知生成逼真的面部表情和动作。该框架基于上下文增强音频学习和运动解耦控制器,分别提取音频片段内的长期时间音频知识和独立控制头部与表情运动,增强局部音频感知能力。Sonic 通过时间感知位置偏移融合机制,将局部音频感知扩展到全局,解决了长视频生成中的抖动和突变问题。

Sonic 在视频质量、唇部同步精度、运动多样性和时间连贯性方面优于现有的最先进方法,显著提升了肖像动画的自然性和连贯性。它还支持用户对动画进行精细调整,提供了高度的可定制性。

Sonic 的主要功能

Sonic-show

  • 逼真的唇部同步:精确地将音频与唇部动作对齐,确保说话内容与嘴型高度一致。
  • 丰富的表情和头部动作:生成多样化且自然的面部表情和头部运动,让动画更具生动性和表现力。
  • 长时间稳定生成:在处理长视频时,能保持稳定的输出,避免抖动和突变,确保整体连贯性。
  • 用户可调节性:支持用户基于参数调整控制头部运动、表情强度和唇部同步效果,提供高度的可定制性。

Sonic 的技术原理

Sonic

  • 上下文增强音频学习:提取音频片段内的长期时间音频知识,将音频信号中的语调、语速等信息转化为面部表情和唇部运动的先验知识。Whisper-Tiny 模型提取音频特征,基于多尺度理解将特征与空间交叉注意力层结合,指导空间帧的生成。
  • 运动解耦控制器:将头部运动和表情运动解耦,分别用独立的参数控制,增强动画的多样性和自然性。支持用户自定义夸张运动,基于调整运动桶参数(motion-bucket parameters)控制头部和表情运动的幅度。
  • 时间感知位置偏移融合:基于时间感知的滑动窗口策略,将音频片段的局部感知扩展到全局感知,解决长视频生成中的抖动和突变问题。在每个时间步中,模型从新的位置开始处理音频片段,逐步融合全局音频信息,确保长视频的连贯性。
  • 全局音频驱动:Sonic 完全依赖音频信号驱动动画生成,避免传统方法中对视觉信号(如运动帧)的依赖,提高生成的自然性和时间一致性。音频信号作为全局信号,为面部表情和头部运动提供隐式的先验信息,让生成的动画更加符合音频内容。

如何运行 Sonic

1. 安装环境

  • 安装 PyTorch:

    pip3 install -r requirements.txt
    
  • 下载模型权重:

    python3 -m pip install "huggingface_hub[cli]"
    huggingface-cli download LeonJoe13/Sonic --local-dir checkpoints
    huggingface-cli download stabilityai/stable-video-diffusion-img2vid-xt --local-dir checkpoints/stable-video-diffusion-img2vid-xt
    huggingface-cli download openai/whisper-tiny --local-dir checkpoints/whisper-tiny
    

或手动下载 预训练模型svd-xtcheckpoints/ 目录。

2. 运行示例

python3 demo.py '/path/to/input_image' '/path/to/input_audio' '/path/to/output_video'

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
10月前
|
自然语言处理 搜索推荐 UED
天图万境发布视频生音频通用工具Sora Opera
【2月更文挑战第24天】天图万境发布视频生音频通用工具Sora Opera
129 1
天图万境发布视频生音频通用工具Sora Opera
|
10月前
|
人工智能 自然语言处理 数据可视化
比Sora更王炸,LTX Studio文本生成超25秒,视频自带背景音乐、转场等效果!
【2月更文挑战第13天】比Sora更王炸,LTX Studio文本生成超25秒,视频自带背景音乐、转场等效果!
188 3
比Sora更王炸,LTX Studio文本生成超25秒,视频自带背景音乐、转场等效果!
|
2月前
|
机器学习/深度学习 数据采集 人工智能
TransPixar:港中文联合 Adobe 开源透明背景视频生成模型,生成透明背景的 RGBA 视频,助力特效等视觉效果制作
TransPixar 是由港中文、Adobe 等机构联合开源的文本到视频生成技术,支持生成包含透明背景的 RGBA 视频,适用于娱乐、广告、教育等多个领域。
142 22
TransPixar:港中文联合 Adobe 开源透明背景视频生成模型,生成透明背景的 RGBA 视频,助力特效等视觉效果制作
|
2月前
|
传感器 人工智能
X-Dyna:一张图片就能实现动画化!字节联合斯坦福推出动画生成框架
X-Dyna 是由字节跳动联合斯坦福等高校推出的动画生成框架,基于扩散模型实现单张图像动画化,支持面部表情和身体动作控制,生成高质量动态细节。
108 6
X-Dyna:一张图片就能实现动画化!字节联合斯坦福推出动画生成框架
|
25天前
|
机器学习/深度学习 人工智能 前端开发
FacePoke:开源AI实时面部编辑神器!拖拽调整表情/头部朝向,4K画质一键生成
FacePoke是一款基于AI技术的开源实时面部编辑工具,支持通过拖拽操作调整头部朝向和面部表情,适用于多种场景。
106 0
|
3月前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
165 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
3月前
|
人工智能 数据挖掘 大数据
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等
Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型,能够根据歌词和伴奏直接生成说唱音乐。该模型基于语言模型生成语义标记,并通过条件流匹配模型和神经声码器生成高质量音频。Freestyler还推出了RapBank数据集,支持零样本音色控制和多种应用场景。
158 16
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等
|
7月前
|
开发者 图形学 C#
揭秘游戏沉浸感的秘密武器:深度解析Unity中的音频设计技巧,从背景音乐到动态音效,全面提升你的游戏氛围艺术——附实战代码示例与应用场景指导
【8月更文挑战第31天】音频设计在游戏开发中至关重要,不仅能增强沉浸感,还能传递信息,构建氛围。Unity作为跨平台游戏引擎,提供了丰富的音频处理功能,助力开发者轻松实现复杂音效。本文将探讨如何利用Unity的音频设计提升游戏氛围,并通过具体示例代码展示实现过程。例如,在恐怖游戏中,阴森的背景音乐和突然的脚步声能增加紧张感;在休闲游戏中,轻快的旋律则让玩家感到愉悦。
241 0
|
7月前
|
图形学 C# 开发者
Unity粒子系统全解析:从基础设置到高级编程技巧,教你轻松玩转绚丽多彩的视觉特效,打造震撼游戏画面的终极指南
【8月更文挑战第31天】粒子系统是Unity引擎的强大功能,可创建动态视觉效果,如火焰、爆炸等。本文介绍如何在Unity中使用粒子系统,并提供示例代码。首先创建粒子系统,然后调整Emission、Shape、Color over Lifetime等模块参数,实现所需效果。此外,还可通过C#脚本实现更复杂的粒子效果,增强游戏视觉冲击力和沉浸感。
470 0
|
7月前
|
图形学 开发者
【Unity光照艺术手册】掌握这些技巧,让你的游戏场景瞬间提升档次:从基础光源到全局光照,打造24小时不间断的视觉盛宴——如何运用代码与烘焙创造逼真光影效果全解析
【8月更文挑战第31天】在Unity中,合理的光照与阴影设置对于打造逼真环境至关重要。本文介绍Unity支持的多种光源类型,如定向光、点光源、聚光灯等,并通过具体示例展示如何使用着色器和脚本控制光照强度,模拟不同时间段的光照变化。此外,还介绍了动态和静态阴影、全局光照及光照探针等高级功能,帮助开发者创造丰富多样的光影效果,提升游戏沉浸感。
208 0

热门文章

最新文章