❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
🎬 "虚拟主播要失业?港科大开源视频核弹:音频+表情双控,嘴型同步误差碾压SOTA"
大家好,我是蚝油菜花。当同行还在为AI口型不同步焦头烂额时,这个中国团队已经让视频生成进入「声情并茂」的新纪元!
你是否经历过这些AI翻车现场:
- 👄 虚拟主播的嘴型永远慢半拍,像在看劣质译制片
- 🎭 表情驱动像恐怖谷实验,微笑时嘴角抽搐
- 🎮 游戏NPC说话时,面部肌肉群各自为政...
今天要解剖的 ACTalker ,正在重写视频生成规则!这个由港科大×腾讯×清华打造的多模态引擎,用三大黑科技炸穿次元壁:
- ✅ 并行Mamba架构:音频/表情信号分控不同面部区域,互不打架
- ✅ 门控魔术师:训练时随机开关信号通道,推理时自由组合
- ✅ 时空协调大师:状态空间建模确保每个微表情都自然流畅
已有团队用它1小时生成虚拟主播全季度素材,文末附《多模态控制极简手册》——你的摄像头准备好被AI接管了吗?
🚀 快速阅读
ACTalker是一个基于视频扩散模型的端到端说话人视频生成框架。
- 功能:支持音频/表情等多信号独立或组合控制,生成高度同步的说话人视频
- 技术:采用并行Mamba结构+门控机制,实现多模态信号的无冲突融合
ACTalker 是什么
ACTalker是由香港科技大学联合腾讯和清华大学研发的端到端视频扩散框架,专门用于生成逼真的说话人头部视频。该框架创新性地采用并行Mamba结构,通过多分支处理不同驱动信号,实现了对面部区域的精准控制。
在技术指标方面,ACTalker在CelebV-HQ数据集上取得了Sync-C分数5.317、Sync-D分数7.869的优秀表现,FVD-Inc分数为232.374,证明了其在音频同步和视频质量方面的卓越性能。这些成绩使其成为当前说话人视频生成领域的标杆性解决方案。
ACTalker 的主要功能
- 多信号控制:支持音频、表情等多种驱动信号的独立或组合使用,灵活适应不同应用场景
- 高质量生成:通过Mamba结构实现跨时空维度的特征标记操控,确保视频自然流畅
- 动态门控:训练时采用随机门控策略,推理时可手动调整各信号通道的开启状态
ACTalker 的技术原理
- 并行Mamba结构:多个分支分别处理不同驱动信号,实现面部区域的独立控制
- 门控机制:动态调整各模态信号的影响权重,支持单/多信号灵活切换
- 掩码丢弃策略:训练时随机丢弃无关特征标记,增强信号控制的有效性
- 状态空间建模:确保视频在时间和空间维度上的动作自然协调
资源
- 项目主页:https://harlanhong.github.io/publications/actalker
- GitHub 仓库:https://github.com/harlanhong/ACTalker
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦