[AI Microsoft VASA-1] 以音频驱动的逼真实时生成的对话脸部

简介: 微软VASA-1项目通过单张肖像照片和语音音频,生成具有精确唇音同步、栩栩如生的面部行为和自然头部运动的超逼真对话脸部视频。该技术展现了在实时效率、分布外泛化和解耦能力方面的显著优势,并强调了负责任的AI开发和应用的重要性。

肖像 + 声音 = 视频,该领域,最早阿里EMO,之后腾讯MuseV,AniPortrait。

最近,微软出了 VASA-1,这个效果是真好。排第一。可惜没放出源码。我们来看下。


简而言之:单张肖像照片+语音音频=在实时生成的超逼真对话脸部视频中,具有精确的唇音同步、栩栩如生的面部行为和自然的头部运动。

image.png

摘要

我们介绍了VASA,一个框架,用于在给定单张静态图像和语音音频片段的情况下,生成具有吸引力的视觉情感技能(VAS)的虚拟角色的栩栩如生的对话脸部。我们的首款模型,VASA-1,不仅能够产生与音频精确同步的唇部运动,还能捕捉到广泛的面部细微差别和自然的头部运动,从而增强了真实感和生动感的感知。核心创新包括一个在面部潜在空间中工作的整体面部动态和头部运动生成模型,以及使用视频开发出这样一种富有表现力和解耦的面部潜在空间。通过包括对一组新指标进行评估在内的大量实验,我们展示了我们的方法在各个方面显著优于以往的方法。我们的方法不仅提供了高质量的视频,具有逼真的面部和头部动态,还支持在可忽略的起始延迟下以高达40帧每秒的速度在线生成512x512的视频。这为模拟人类对话行为的逼真化头像的实时交互铺平了道路。

(注意:本页面上的所有肖像图像均为由StyleGAN2或DALL·E-3生成的虚拟、不存在的身份,除了蒙娜丽莎。我们正在探索为虚拟的、互动的角色生成视觉情感技能,而不是模仿现实世界中的任何人。这只是一个研究演示,没有产品或API发布计划。另请参阅本页面底部的更多我们的负责任AI考虑。)

逼真度和生动性

我们的方法不仅能够产生精确的唇音同步,还能生成丰富表达的面部细微差别和自然的头部运动。它可以处理任意长度的音频并稳定输出无缝的对话脸部视频。

生成的可控性

我们的扩散模型接受可选信号作为条件,例如主要眼睛注视方向和头部距离,以及情绪偏移量。

分布外泛化

我们的方法表现出处理训练分布之外的照片和音频输入的能力。例如,它可以处理艺术照片、歌唱音频和非英语语音。这些类型的数据在训练集中并未出现。

解耦能力

我们的潜在表示将外观、3D头部姿态和面部动态解耦,这使得生成内容的单独属性控制和编辑成为可能。

实时效率

我们的方法在离线批量处理模式下,能够以45帧每秒(fps)的速度生成512x512大小的视频帧,并且在在线流式传输模式下,支持最高40fps的帧率,仅有170毫秒的前置延迟,这一性能是在配备单个NVIDIA RTX 4090 GPU的桌面PC上评估得出的。

风险和负责任的人工智能考虑

我们的研究重点是为虚拟人工智能化身生成视觉情感技能,旨在积极应用。它不旨在创建用于误导或欺骗的内容。然而,像其他相关的内容生成技术一样,它仍然可能被潜在地滥用于冒充人类。我们反对任何创建误导性或对真实人物有害内容的行为,并有兴趣应用我们的技术来推进伪造检测。目前,通过这种方法生成的视频仍然包含可识别的人工痕迹,并且数值分析表明,要达到真实视频的真实性还有一段差距。

在承认滥用可能性的同时,重要的是要认识到我们技术的实质性积极潜力。好处——例如增强教育公平性、改善沟通挑战者的可访问性、为有需要的人提供陪伴或治疗支持等——强调了我们研究和其他相关探索的重要性。我们致力于负责任地开发人工智能,目标是推进人类福祉。

鉴于这样的背景,我们没有计划发布在线演示、API、产品、额外的实施细节或任何相关产品,直到我们确定这项技术将被负责任地使用,并符合适当的法规。

相关文章
|
2月前
|
人工智能 弹性计算 运维
AI驱动的操作系统服务评测报告
阿里云推出AI驱动的一站式免费操作系统服务套件,包含SysOM管控组件和OS Copilot智能助手,提供集群健康监测、深度系统诊断等功能。通过直观的操作界面和详尽的诊断报告,帮助运维人员优化系统性能,提高工作效率。特别针对EOL操作系统提供订阅管理服务,确保系统安全。整体体验令人满意,但在文档详细度和定制化方面仍有提升空间。
82 14
|
10天前
|
人工智能 算法 开发者
AI前行需创新驱动,也要伦理护航:探索生成式人工智能的未来之路
随着科技发展,生成式人工智能(Generative AI)成为推动社会进步的重要力量。本文探讨其创新驱动与伦理护航的重要性,介绍GAI认证如何提升个人和企业在AI时代的竞争力。GAI认证不仅涵盖技术技能,还强调伦理、法律和社会影响,确保AI的健康发展。通过GAI认证,学员能掌握生成式AI的核心应用,具备负责任使用这些工具的能力,在职场中更具竞争力。
|
1月前
|
XML 机器学习/深度学习 人工智能
CLaMP 3:音乐搜索AI革命!多模态AI能听懂乐谱/MIDI/音频,用27国语言搜索全球音乐
CLaMP 3是由清华大学团队开发的多模态、多语言音乐信息检索框架,支持27种语言,能够进行跨模态音乐检索、零样本分类和音乐推荐等任务。
58 1
CLaMP 3:音乐搜索AI革命!多模态AI能听懂乐谱/MIDI/音频,用27国语言搜索全球音乐
|
21天前
|
SQL 人工智能 自然语言处理
我的朋友浩鲸科技说AI:驱动智能革命先自我革命
我的朋友浩鲸科技说AI:驱动智能革命先自我革命
|
2月前
|
数据采集 SQL 人工智能
瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准 |【瓴羊数据荟】数据MeetUp第三期
数据标准是数据治理的核心抓手,通过梳理数据标准可以有效提升数据质量。瓴羊Dataphin平台利用AI技术简化数据治理流程,实现自动化的数据标准建立、质量规则构建和特征识别,助力企业在大模型时代高效治理数据,推动数据真正为业务服务。
417 28
瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准 |【瓴羊数据荟】数据MeetUp第三期
|
2月前
|
人工智能 运维 数据可视化
AI驱动操作系统服务评测报告
阿里云操作系统服务套件集成AI技术,提供集群健康、系统诊断、观测分析和OS Copilot等功能,助力高效管理。安装组件流程简便,系统观测与诊断功能强大,数据可视化效果佳,支持历史趋势分析。OS Copilot智能助手回答逻辑清晰,但部分问题需增强专业性。整体评价高,建议进一步优化错误提示、自动诊断及订阅服务记录,提升用户体验。
114 26
AI驱动操作系统服务评测报告
|
2月前
|
人工智能 自然语言处理 语音技术
FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具
FilmAgent 是由哈工大与清华联合推出的AI电影自动化制作工具,通过多智能体协作实现从剧本生成到虚拟拍摄的全流程自动化。
531 10
FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具
|
1月前
|
人工智能 机器人
Flowable + Claude Desktop:AI驱动的RPA新玩法
Flowable与Anthropic推出的Claude Desktop联手,带来AI驱动的自动化新体验。用户只需告知目标,系统便能自动分析屏幕、规划步骤,完成任务如网页数据抓取或表单填写。相比传统RPA,它更灵活智能,适合应对不确定性场景。通过“看懂屏幕、理解目标”,Claude Desktop在复杂环境中游刃有余,尤其擅长处理界面更新和突发情况。这种组合将Flowable的流程管理和AI灵活性完美融合,为自动化领域注入新活力。
64 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪
Emotion-LLaMA 是一款多模态情绪识别与推理模型,融合音频、视觉和文本输入,通过特定情绪编码器整合信息,广泛应用于人机交互、教育、心理健康等领域。
198 11
Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪
|
1月前
|
人工智能
逼真到离谱!1000个人类克隆进西部世界,AI相似度85%细节太炸裂
《生成式代理:1000人的模拟》由斯坦福大学等机构完成,利用AI技术成功模拟了1000个真实个体的态度和行为,准确率达85%。研究结合大型语言模型与定性访谈数据,旨在为社会科学研究提供新工具,减少偏见,提升公平性。论文还探讨了隐私和伦理问题,并强调了代理的局限性。
53 13

热门文章

最新文章