[AI Microsoft VASA-1] 以音频驱动的逼真实时生成的对话脸部

简介: 微软VASA-1项目通过单张肖像照片和语音音频,生成具有精确唇音同步、栩栩如生的面部行为和自然头部运动的超逼真对话脸部视频。该技术展现了在实时效率、分布外泛化和解耦能力方面的显著优势,并强调了负责任的AI开发和应用的重要性。

肖像 + 声音 = 视频,该领域,最早阿里EMO,之后腾讯MuseV,AniPortrait。

最近,微软出了 VASA-1,这个效果是真好。排第一。可惜没放出源码。我们来看下。


简而言之:单张肖像照片+语音音频=在实时生成的超逼真对话脸部视频中,具有精确的唇音同步、栩栩如生的面部行为和自然的头部运动。

image.png

摘要

我们介绍了VASA,一个框架,用于在给定单张静态图像和语音音频片段的情况下,生成具有吸引力的视觉情感技能(VAS)的虚拟角色的栩栩如生的对话脸部。我们的首款模型,VASA-1,不仅能够产生与音频精确同步的唇部运动,还能捕捉到广泛的面部细微差别和自然的头部运动,从而增强了真实感和生动感的感知。核心创新包括一个在面部潜在空间中工作的整体面部动态和头部运动生成模型,以及使用视频开发出这样一种富有表现力和解耦的面部潜在空间。通过包括对一组新指标进行评估在内的大量实验,我们展示了我们的方法在各个方面显著优于以往的方法。我们的方法不仅提供了高质量的视频,具有逼真的面部和头部动态,还支持在可忽略的起始延迟下以高达40帧每秒的速度在线生成512x512的视频。这为模拟人类对话行为的逼真化头像的实时交互铺平了道路。

(注意:本页面上的所有肖像图像均为由StyleGAN2或DALL·E-3生成的虚拟、不存在的身份,除了蒙娜丽莎。我们正在探索为虚拟的、互动的角色生成视觉情感技能,而不是模仿现实世界中的任何人。这只是一个研究演示,没有产品或API发布计划。另请参阅本页面底部的更多我们的负责任AI考虑。)

逼真度和生动性

我们的方法不仅能够产生精确的唇音同步,还能生成丰富表达的面部细微差别和自然的头部运动。它可以处理任意长度的音频并稳定输出无缝的对话脸部视频。

生成的可控性

我们的扩散模型接受可选信号作为条件,例如主要眼睛注视方向和头部距离,以及情绪偏移量。

分布外泛化

我们的方法表现出处理训练分布之外的照片和音频输入的能力。例如,它可以处理艺术照片、歌唱音频和非英语语音。这些类型的数据在训练集中并未出现。

解耦能力

我们的潜在表示将外观、3D头部姿态和面部动态解耦,这使得生成内容的单独属性控制和编辑成为可能。

实时效率

我们的方法在离线批量处理模式下,能够以45帧每秒(fps)的速度生成512x512大小的视频帧,并且在在线流式传输模式下,支持最高40fps的帧率,仅有170毫秒的前置延迟,这一性能是在配备单个NVIDIA RTX 4090 GPU的桌面PC上评估得出的。

风险和负责任的人工智能考虑

我们的研究重点是为虚拟人工智能化身生成视觉情感技能,旨在积极应用。它不旨在创建用于误导或欺骗的内容。然而,像其他相关的内容生成技术一样,它仍然可能被潜在地滥用于冒充人类。我们反对任何创建误导性或对真实人物有害内容的行为,并有兴趣应用我们的技术来推进伪造检测。目前,通过这种方法生成的视频仍然包含可识别的人工痕迹,并且数值分析表明,要达到真实视频的真实性还有一段差距。

在承认滥用可能性的同时,重要的是要认识到我们技术的实质性积极潜力。好处——例如增强教育公平性、改善沟通挑战者的可访问性、为有需要的人提供陪伴或治疗支持等——强调了我们研究和其他相关探索的重要性。我们致力于负责任地开发人工智能,目标是推进人类福祉。

鉴于这样的背景,我们没有计划发布在线演示、API、产品、额外的实施细节或任何相关产品,直到我们确定这项技术将被负责任地使用,并符合适当的法规。

相关文章
|
2月前
|
人工智能 搜索推荐 Java
[AI OpenAI] MavenAGI推出由OpenAI驱动的自动化客户支持代理
MavenAGI推出了一款由GPT-4驱动的AI客户服务代理,为Tripadvisor和HubSpot等公司提高了效率并降低了成本。
[AI OpenAI] MavenAGI推出由OpenAI驱动的自动化客户支持代理
|
2月前
|
存储 人工智能 自然语言处理
AI 驱动的 WordPress(MEAP)(一)(5)
AI 驱动的 WordPress(MEAP)(一)
34 0
|
2月前
|
存储 人工智能 前端开发
AI 驱动的 WordPress(MEAP)(一)(4)
AI 驱动的 WordPress(MEAP)(一)
26 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索软件测试的未来:AI 驱动的自动化测试方法
【5月更文挑战第29天】随着人工智能(AI)技术的不断发展和成熟,其在软件测试领域的应用也日益广泛。本文旨在探讨 AI 如何改变软件测试的面貌,特别是自动化测试方法。我们将分析当前自动化测试的挑战,并介绍 AI 如何提供解决方案,包括智能化测试用例生成、测试执行优化、以及结果分析等。通过实际案例研究,我们还将讨论 AI 在提高测试效率、减少错误和提升软件质量保障中的作用。最后,文章将预测 AI 在自动化测试领域的未来趋势,并提出对测试工程师的建议。
|
1天前
|
人工智能 搜索推荐 API
[AI Perplexica] AI驱动的开源搜索引擎
探索Perplexica,一款由AI驱动的开源搜索引擎,了解其特点、使用方法以及如何安装。
[AI Perplexica] AI驱动的开源搜索引擎
|
9天前
|
机器学习/深度学习 人工智能 算法
【AIGC】揭秘驱动AI创新的关键力量:领军者的角色
【AIGC】揭秘驱动AI创新的关键力量:领军者的角色
62 1
|
2月前
|
人工智能 自然语言处理 算法
GPT-4o:重塑AI语音对话的边界与机遇
最近技术圈又出了新的“爆炸”新闻,因为OpenAI再次掀起技术浪潮,发布了最新旗舰模型GPT-4o,通过官方的消息显示这款全新的模型凭借超高速的语音响应能力和多模态交互革新,不仅让AI语音对话的交互体验更加流畅自然,还以免费使用的形式,给用户和行业带来了前所未有的震撼。那么GPT-4o相比前代有哪些显著的技术提升?它的发布又为国内大模型行业带来了哪些机会呢?本文就来简单聊一聊,欢迎大家在评论区留言交流。
47 2
GPT-4o:重塑AI语音对话的边界与机遇
|
16天前
|
人工智能 自然语言处理 搜索推荐
优化AI对话体验并全面兼容GPT功能平台
优化AI对话体验并全面兼容GPT功能平台
22 1
|
22天前
|
人工智能 Python Shell
CodeFormer——AI驱动的面部图像修复与增强
CodeFormer是由南洋理工大学和商汤科技联合研发的AI人脸复原模型,结合VQGAN和Transformer技术,能从模糊或马赛克图像中生成清晰图像。它具备老照片修复、黑白照片彩色化、马赛克修复和低码率视频增强等功能。安装过程涉及miniconda3、Python环境配置、相关库的安装及模型训练数据下载。在测试视频增强时,虽然初期遇到ffmpeg导入问题,但通过安装ffmpeg-python得以解决,不过CPU占用率高。此外,还展示了对图片进行增强的命令行操作及结果示例。
|
1月前
|
机器学习/深度学习 人工智能 算法
探索软件测试的新时代:AI驱动的自动化
【6月更文挑战第4天】随着人工智能技术的不断进步,软件测试领域正经历着一场革命。本文将探讨AI如何改变传统的软件测试方法,提高测试效率和准确性,以及这一趋势对测试工程师未来技能要求的影响。
29 6