[AI Microsoft VASA-1] 以音频驱动的逼真实时生成的对话脸部

简介: 微软VASA-1项目通过单张肖像照片和语音音频,生成具有精确唇音同步、栩栩如生的面部行为和自然头部运动的超逼真对话脸部视频。该技术展现了在实时效率、分布外泛化和解耦能力方面的显著优势,并强调了负责任的AI开发和应用的重要性。

肖像 + 声音 = 视频,该领域,最早阿里EMO,之后腾讯MuseV,AniPortrait。

最近,微软出了 VASA-1,这个效果是真好。排第一。可惜没放出源码。我们来看下。


简而言之:单张肖像照片+语音音频=在实时生成的超逼真对话脸部视频中,具有精确的唇音同步、栩栩如生的面部行为和自然的头部运动。

image.png

摘要

我们介绍了VASA,一个框架,用于在给定单张静态图像和语音音频片段的情况下,生成具有吸引力的视觉情感技能(VAS)的虚拟角色的栩栩如生的对话脸部。我们的首款模型,VASA-1,不仅能够产生与音频精确同步的唇部运动,还能捕捉到广泛的面部细微差别和自然的头部运动,从而增强了真实感和生动感的感知。核心创新包括一个在面部潜在空间中工作的整体面部动态和头部运动生成模型,以及使用视频开发出这样一种富有表现力和解耦的面部潜在空间。通过包括对一组新指标进行评估在内的大量实验,我们展示了我们的方法在各个方面显著优于以往的方法。我们的方法不仅提供了高质量的视频,具有逼真的面部和头部动态,还支持在可忽略的起始延迟下以高达40帧每秒的速度在线生成512x512的视频。这为模拟人类对话行为的逼真化头像的实时交互铺平了道路。

(注意:本页面上的所有肖像图像均为由StyleGAN2或DALL·E-3生成的虚拟、不存在的身份,除了蒙娜丽莎。我们正在探索为虚拟的、互动的角色生成视觉情感技能,而不是模仿现实世界中的任何人。这只是一个研究演示,没有产品或API发布计划。另请参阅本页面底部的更多我们的负责任AI考虑。)

逼真度和生动性

我们的方法不仅能够产生精确的唇音同步,还能生成丰富表达的面部细微差别和自然的头部运动。它可以处理任意长度的音频并稳定输出无缝的对话脸部视频。

生成的可控性

我们的扩散模型接受可选信号作为条件,例如主要眼睛注视方向和头部距离,以及情绪偏移量。

分布外泛化

我们的方法表现出处理训练分布之外的照片和音频输入的能力。例如,它可以处理艺术照片、歌唱音频和非英语语音。这些类型的数据在训练集中并未出现。

解耦能力

我们的潜在表示将外观、3D头部姿态和面部动态解耦,这使得生成内容的单独属性控制和编辑成为可能。

实时效率

我们的方法在离线批量处理模式下,能够以45帧每秒(fps)的速度生成512x512大小的视频帧,并且在在线流式传输模式下,支持最高40fps的帧率,仅有170毫秒的前置延迟,这一性能是在配备单个NVIDIA RTX 4090 GPU的桌面PC上评估得出的。

风险和负责任的人工智能考虑

我们的研究重点是为虚拟人工智能化身生成视觉情感技能,旨在积极应用。它不旨在创建用于误导或欺骗的内容。然而,像其他相关的内容生成技术一样,它仍然可能被潜在地滥用于冒充人类。我们反对任何创建误导性或对真实人物有害内容的行为,并有兴趣应用我们的技术来推进伪造检测。目前,通过这种方法生成的视频仍然包含可识别的人工痕迹,并且数值分析表明,要达到真实视频的真实性还有一段差距。

在承认滥用可能性的同时,重要的是要认识到我们技术的实质性积极潜力。好处——例如增强教育公平性、改善沟通挑战者的可访问性、为有需要的人提供陪伴或治疗支持等——强调了我们研究和其他相关探索的重要性。我们致力于负责任地开发人工智能,目标是推进人类福祉。

鉴于这样的背景,我们没有计划发布在线演示、API、产品、额外的实施细节或任何相关产品,直到我们确定这项技术将被负责任地使用,并符合适当的法规。

相关文章
|
16天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
1月前
|
机器学习/深度学习 数据采集 人工智能
未来的守护神:AI驱动的网络安全之盾,如何用智慧的光芒驱散网络黑暗势力?揭秘高科技防御系统背后的惊天秘密!
【10月更文挑战第3天】随着网络技术的发展,网络安全问题日益严峻,传统防御手段已显不足。本文探讨了构建AI驱动的自适应网络安全防御系统的必要性及其关键环节:数据采集、行为分析、威胁识别、响应决策和执行。通过Python库(如scapy、scikit-learn和TensorFlow)的应用实例,展示了如何利用AI技术提升网络安全防护水平。这种系统能够实时监控、智能分析并自动化响应,显著提高防护效率与准确性,为数字世界提供更强大的安全保障。
60 2
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来的开发环境:AI 驱动的代码助手
随着人工智能技术的进步,AI驱动的代码助手成为提升软件开发效率和代码质量的关键工具。本文探讨了其潜在功能、技术实现及对未来开发的影响。优势包括自动化任务、实时错误检测、个性化辅助和知识共享。技术上,它结合了机器学习、自然语言处理和深度学习,实现代码理解和推荐、智能补全、自动化测试、代码审查及性能优化等功能,使开发更加高效智能。
|
16天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
5天前
|
存储 人工智能 大数据
AI驱动下的云存储创新
随着大数据时代的到来,云存储作为数据存储和管理的核心基础设施,其重要性日益凸显。同时, AI 快速发展也为云存储的进化与创新提供了强大的驱动力。本话题将解读AI 驱动下云存储的进化趋势,分享阿里云存储的创新技术,助力企业实现数字化升级。
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI驱动的个性化学习平台构建###
【10月更文挑战第29天】 本文将深入探讨如何利用人工智能技术,特别是机器学习与大数据分析,构建一个能够提供高度个性化学习体验的在线平台。我们将分析当前在线教育的挑战,提出通过智能算法实现内容定制、学习路径优化及实时反馈机制的技术方案,以期为不同背景和需求的学习者创造更加高效、互动的学习环境。 ###
38 3
|
20天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI驱动下的IT运维革命###
本文探讨了人工智能(AI)技术在IT运维领域的创新应用,强调其在提升效率、预防故障及优化资源配置中的关键作用,揭示了智能运维的新趋势。 ###
|
17天前
|
数据采集 人工智能 搜索推荐
|
17天前
|
数据采集 人工智能 搜索推荐
大咖说|Data+AI:企业智能化转型的核心驱动力
在数字化浪潮的推动下,企业正面临前所未有的挑战与机遇。数据与人工智能的结合,形成了强大的Data+AI力量,尤其在近期人工智能迅速发展的背景下,这一力量正在加速重塑企业的运营模式、竞争策略和市场前景,成为适应变化、提升竞争力、推动创新的核心驱动力。本文将讨论企业采用Data+AI平台的必要性及其在企业智能化转型中的作用。
87 0
大咖说|Data+AI:企业智能化转型的核心驱动力
|
28天前
|
人工智能 安全 决策智能
OpenAI推出实验性“Swarm”框架,引发关于AI驱动自动化的争论
OpenAI推出实验性“Swarm”框架,引发关于AI驱动自动化的争论

热门文章

最新文章