ACTalker:港科大联合腾讯清华推出,多模态驱动的说话人视频生成神器

本文涉及的产品
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像通用资源包5000点
简介: ACTalker是由香港科技大学联合腾讯、清华大学研发的端到端视频扩散框架,采用并行Mamba结构和多信号控制技术,能生成高度逼真的说话人头部视频。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎬 "虚拟主播要失业?港科大开源视频核弹:音频+表情双控,嘴型同步误差碾压SOTA"

大家好,我是蚝油菜花。当同行还在为AI口型不同步焦头烂额时,这个中国团队已经让视频生成进入「声情并茂」的新纪元!

你是否经历过这些AI翻车现场:

  • 👄 虚拟主播的嘴型永远慢半拍,像在看劣质译制片
  • 🎭 表情驱动像恐怖谷实验,微笑时嘴角抽搐
  • 🎮 游戏NPC说话时,面部肌肉群各自为政...

今天要解剖的 ACTalker ,正在重写视频生成规则!这个由港科大×腾讯×清华打造的多模态引擎,用三大黑科技炸穿次元壁:

  • 并行Mamba架构:音频/表情信号分控不同面部区域,互不打架
  • 门控魔术师:训练时随机开关信号通道,推理时自由组合
  • 时空协调大师:状态空间建模确保每个微表情都自然流畅

已有团队用它1小时生成虚拟主播全季度素材,文末附《多模态控制极简手册》——你的摄像头准备好被AI接管了吗?

🚀 快速阅读

ACTalker是一个基于视频扩散模型的端到端说话人视频生成框架。

  1. 功能:支持音频/表情等多信号独立或组合控制,生成高度同步的说话人视频
  2. 技术:采用并行Mamba结构+门控机制,实现多模态信号的无冲突融合

ACTalker 是什么

ACTalker.jpg

ACTalker是由香港科技大学联合腾讯和清华大学研发的端到端视频扩散框架,专门用于生成逼真的说话人头部视频。该框架创新性地采用并行Mamba结构,通过多分支处理不同驱动信号,实现了对面部区域的精准控制。

在技术指标方面,ACTalker在CelebV-HQ数据集上取得了Sync-C分数5.317、Sync-D分数7.869的优秀表现,FVD-Inc分数为232.374,证明了其在音频同步和视频质量方面的卓越性能。这些成绩使其成为当前说话人视频生成领域的标杆性解决方案。

ACTalker 的主要功能

  • 多信号控制:支持音频、表情等多种驱动信号的独立或组合使用,灵活适应不同应用场景
  • 高质量生成:通过Mamba结构实现跨时空维度的特征标记操控,确保视频自然流畅
  • 动态门控:训练时采用随机门控策略,推理时可手动调整各信号通道的开启状态

ACTalker 的技术原理

ACTalker-framework.png

  • 并行Mamba结构:多个分支分别处理不同驱动信号,实现面部区域的独立控制
  • 门控机制:动态调整各模态信号的影响权重,支持单/多信号灵活切换
  • 掩码丢弃策略:训练时随机丢弃无关特征标记,增强信号控制的有效性
  • 状态空间建模:确保视频在时间和空间维度上的动作自然协调

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
5月前
|
机器学习/深度学习 人工智能 计算机视觉
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。
204 73
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
|
5月前
|
人工智能 算法 测试技术
Insight-V:腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型
Insight-V是由南洋理工大学、腾讯公司和清华大学联合推出的多模态模型,旨在提升长链视觉推理能力。通过渐进式数据生成、多智能体系统和两阶段训练流程,Insight-V在多个视觉推理基准测试中表现出色,展现出强大的视觉推理能力。
159 42
Insight-V:腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型
|
4月前
|
存储 机器学习/深度学习
首个多模态连续学习综述,港中文、清华、UIC联合发布
多模态连续学习(MMCL)旨在使模型在不断学习新数据的同时,不遗忘已有知识。香港中文大学、清华大学和伊利诺伊大学芝加哥分校的研究人员发布了首个关于MMCL的全面综述。该综述介绍了MMCL的基本背景和设置,提出了基于正则化、架构、重放和提示四类方法的分类体系,并讨论了其挑战与未来研究方向。论文链接:https://arxiv.org/abs/2410.05352
91 28
|
4月前
|
数据处理 语音技术 项目管理
人人都是音乐家!中科大&科大讯飞重磅开源OpenMusic:音乐生成更高质量,更有乐感
提出了一种质量感知训练范式,使模型在训练过程中能够感知数据集的质量,从而在音乐性(美学角度)和音频质量方面实现卓越的音乐生成效果。
235 9
人人都是音乐家!中科大&科大讯飞重磅开源OpenMusic:音乐生成更高质量,更有乐感
|
5月前
|
人工智能 编解码 自动驾驶
MagicDriveDiT:华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法
MagicDriveDiT是由华为联合港中文等机构推出的一种新型自动驾驶高分辨率长视频生成方法。该方法基于DiT架构,通过流匹配增强模型的可扩展性,并采用渐进式训练策略处理复杂场景。MagicDriveDiT能够生成高分辨率的长视频,提供对视频内容的精确控制,适用于自动驾驶系统的测试与验证、感知模型训练、场景重建与模拟以及数据增强等多个应用场景。
141 17
MagicDriveDiT:华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法
|
5月前
|
人工智能
SynCamMaster:快手联合浙大、清华等大学推出的多视角视频生成模型
SynCamMaster是由快手科技联合浙江大学、清华大学等机构推出的全球首个多视角视频生成模型,能够结合6自由度相机姿势,从任意视点生成开放世界视频。该模型通过增强预训练的文本到视频模型,确保不同视点的内容一致性,支持多摄像机视频生成,并在多个应用场景中展现出巨大潜力。
131 4
SynCamMaster:快手联合浙大、清华等大学推出的多视角视频生成模型
|
6月前
|
人工智能 编解码
OmniBooth:华为诺亚方舟联合港科大推出的图像生成框架
OmniBooth是由华为诺亚方舟实验室和港科大研究团队联合推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。该框架通过用户定义的掩码和相关联的文本或图像指导,精确控制图像中对象的位置和属性,提升文本到图像合成技术的可控性和实用性。
87 1
OmniBooth:华为诺亚方舟联合港科大推出的图像生成框架
|
6月前
|
人工智能 数据处理 异构计算
LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架
LongRAG是由智谱、清华大学和中国科学院联合推出的双视角鲁棒检索增强生成框架,专为长文本问答设计。该框架通过混合检索器、LLM增强信息提取器、CoT引导过滤器和LLM增强生成器等组件,有效解决了长文本问答中的全局上下文理解和事实细节识别难题。LongRAG在多个数据集上表现优异,提供了自动化微调数据构建管道,增强了系统的“指令跟随”能力和领域适应性。
189 1
LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架
|
11月前
|
机器学习/深度学习 人工智能 算法
清华、华为等提出iVideoGPT:专攻交互式世界模型
【6月更文挑战第6天】清华和华为团队联合推出iVideoGPT,这是一种创新的交互式世界模型,旨在解决视频生成模型的互动性和扩展性挑战。iVideoGPT采用可扩展的自回归变换器框架,整合多模态信号,通过预测标记序列提升智能体交互体验。模型利用压缩标记技术处理高维视觉数据,预训练于大量人类和机器人操控轨迹,适用于视频预测、视觉规划等任务,展现出与顶级方法相当的性能。尽管存在数据多样性、长视频处理和高分辨率视频预测等问题,iVideoGPT仍展现了在视觉机器人操控等领域的巨大潜力。[论文链接](https://arxiv.org/pdf/2405.15223)
105 1
|
6月前
|
安全 机器人 开发者
清华开源全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶HF具身热榜
清华大学近期发布了全球最大的双臂机器人扩散大模型RDT,该模型在调酒、遛狗等任务上表现优异,登顶Hugging Face具身智能热榜。RDT采用扩散架构,具备强大的学习能力,能生成高质量的机器人动作序列,展示了清华在机器人技术领域的领先水平。尽管面临泛化能力、计算资源及安全性等挑战,RDT的开源特性仍为其广泛应用和发展提供了广阔前景。
208 8

热门文章

最新文章