[AI Microsoft VASA-1] 以音频驱动的逼真实时生成的对话脸部

简介: 微软VASA-1项目通过单张肖像照片和语音音频,生成具有精确唇音同步、栩栩如生的面部行为和自然头部运动的超逼真对话脸部视频。该技术展现了在实时效率、分布外泛化和解耦能力方面的显著优势,并强调了负责任的AI开发和应用的重要性。

肖像 + 声音 = 视频,该领域,最早阿里EMO,之后腾讯MuseV,AniPortrait。

最近,微软出了 VASA-1,这个效果是真好。排第一。可惜没放出源码。我们来看下。


简而言之:单张肖像照片+语音音频=在实时生成的超逼真对话脸部视频中,具有精确的唇音同步、栩栩如生的面部行为和自然的头部运动。

image.png

摘要

我们介绍了VASA,一个框架,用于在给定单张静态图像和语音音频片段的情况下,生成具有吸引力的视觉情感技能(VAS)的虚拟角色的栩栩如生的对话脸部。我们的首款模型,VASA-1,不仅能够产生与音频精确同步的唇部运动,还能捕捉到广泛的面部细微差别和自然的头部运动,从而增强了真实感和生动感的感知。核心创新包括一个在面部潜在空间中工作的整体面部动态和头部运动生成模型,以及使用视频开发出这样一种富有表现力和解耦的面部潜在空间。通过包括对一组新指标进行评估在内的大量实验,我们展示了我们的方法在各个方面显著优于以往的方法。我们的方法不仅提供了高质量的视频,具有逼真的面部和头部动态,还支持在可忽略的起始延迟下以高达40帧每秒的速度在线生成512x512的视频。这为模拟人类对话行为的逼真化头像的实时交互铺平了道路。

(注意:本页面上的所有肖像图像均为由StyleGAN2或DALL·E-3生成的虚拟、不存在的身份,除了蒙娜丽莎。我们正在探索为虚拟的、互动的角色生成视觉情感技能,而不是模仿现实世界中的任何人。这只是一个研究演示,没有产品或API发布计划。另请参阅本页面底部的更多我们的负责任AI考虑。)

逼真度和生动性

我们的方法不仅能够产生精确的唇音同步,还能生成丰富表达的面部细微差别和自然的头部运动。它可以处理任意长度的音频并稳定输出无缝的对话脸部视频。

生成的可控性

我们的扩散模型接受可选信号作为条件,例如主要眼睛注视方向和头部距离,以及情绪偏移量。

分布外泛化

我们的方法表现出处理训练分布之外的照片和音频输入的能力。例如,它可以处理艺术照片、歌唱音频和非英语语音。这些类型的数据在训练集中并未出现。

解耦能力

我们的潜在表示将外观、3D头部姿态和面部动态解耦,这使得生成内容的单独属性控制和编辑成为可能。

实时效率

我们的方法在离线批量处理模式下,能够以45帧每秒(fps)的速度生成512x512大小的视频帧,并且在在线流式传输模式下,支持最高40fps的帧率,仅有170毫秒的前置延迟,这一性能是在配备单个NVIDIA RTX 4090 GPU的桌面PC上评估得出的。

风险和负责任的人工智能考虑

我们的研究重点是为虚拟人工智能化身生成视觉情感技能,旨在积极应用。它不旨在创建用于误导或欺骗的内容。然而,像其他相关的内容生成技术一样,它仍然可能被潜在地滥用于冒充人类。我们反对任何创建误导性或对真实人物有害内容的行为,并有兴趣应用我们的技术来推进伪造检测。目前,通过这种方法生成的视频仍然包含可识别的人工痕迹,并且数值分析表明,要达到真实视频的真实性还有一段差距。

在承认滥用可能性的同时,重要的是要认识到我们技术的实质性积极潜力。好处——例如增强教育公平性、改善沟通挑战者的可访问性、为有需要的人提供陪伴或治疗支持等——强调了我们研究和其他相关探索的重要性。我们致力于负责任地开发人工智能,目标是推进人类福祉。

鉴于这样的背景,我们没有计划发布在线演示、API、产品、额外的实施细节或任何相关产品,直到我们确定这项技术将被负责任地使用,并符合适当的法规。

相关文章
|
4月前
|
人工智能 监控 安全
提效40%?揭秘AI驱动的支付方式“一键接入”系统
本项目构建AI驱动的研发提效系统,通过Qwen Coder与MCP工具链协同,实现跨境支付渠道接入的自动化闭环。采用多智能体协作模式,结合结构化Prompt、任务拆解、流程管控与安全约束,显著提升研发效率与交付质量,探索大模型在复杂业务场景下的高采纳率编码实践。
609 26
提效40%?揭秘AI驱动的支付方式“一键接入”系统
|
4月前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
1184 12
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
4月前
|
人工智能 自然语言处理 测试技术
从人工到AI驱动:天猫测试全流程自动化变革实践
天猫技术质量团队探索AI在测试全流程的落地应用,覆盖需求解析、用例生成、数据构造、执行验证等核心环节。通过AI+自然语言驱动,实现测试自动化、可溯化与可管理化,在用例生成、数据构造和执行校验中显著提效,推动测试体系从人工迈向AI全流程自动化,提升效率40%以上,用例覆盖超70%,并构建行业级知识资产沉淀平台。
从人工到AI驱动:天猫测试全流程自动化变革实践
|
4月前
|
人工智能 算法 Java
Java与AI驱动区块链:构建智能合约与去中心化AI应用
区块链技术和人工智能的融合正在开创去中心化智能应用的新纪元。本文深入探讨如何使用Java构建AI驱动的区块链应用,涵盖智能合约开发、去中心化AI模型训练与推理、数据隐私保护以及通证经济激励等核心主题。我们将完整展示从区块链基础集成、智能合约编写、AI模型上链到去中心化应用(DApp)开发的全流程,为构建下一代可信、透明的智能去中心化系统提供完整技术方案。
384 3
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
迁移学习:让小数据也能驱动AI大模型
迁移学习:让小数据也能驱动AI大模型
400 99
|
5月前
|
云安全 人工智能 安全
|
4月前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
476 5
我们开源了一款 AI 驱动的用户社区
|
4月前
|
人工智能 IDE 开发工具
从6人日到1人日:一次AI驱动的客户端需求开发实战
从6人日到1人日:一次AI驱动的客户端需求开发实战
从6人日到1人日:一次AI驱动的客户端需求开发实战