Meta开发新虚拟背景处理AI,让元宇宙中人像不再虚糊

简介: Meta开发新虚拟背景处理AI,让元宇宙中人像不再虚糊
【新智元导读】为了让广大视频通话用户体验更佳,也让更多AR、VR用户青睐元宇宙,Meta的AI研发团队最近开发了能更好处理虚拟背景的AI模型

自新冠疫情开始以来,大部分人都已经习惯了在和朋友、同事和家人远程视频通话。视频聊天的时候都使用过虚拟背景。用户在视频时变换背景,能赋予其在虚拟影像中掌控身边环境的权利,减少因环境带来的分心,还能保护隐私,甚至还能让用户在视频里看起来更有精气神。但有些时候虚拟背景呈现出来的效果可能和用户需求的不一样。大部分人都经历过在移动的时候虚拟背景把人脸挡住了,或者是虚拟背景无法识别手和桌子之间的边界。最近,Meta利用强化的AI模型来分割图像,优化了背景模糊功能,虚拟背景功能和其它Meta产品服务的AR效果。这样可以更好的分辨照片和视频中的不同部分。来自Meta AI、现实实验室和Meta其它部门的研究人员和工程师,组成了一个跨部门小组,最近开发了新的图像分割模型,已用在Portal、Messenger和Instagram等很多平台的实时视频通话和Spark AR的增强现实应用中。该小组还优化了双人图像分割模型,已经在Instagram和Messenger上应用了。

如何让AI改进虚拟背景

该小组在推进图像分割的优化过程中,主要有以下三大挑战:1.要让AI学会在不同的环境下也能正常识别。比如说环境偏暗、人物肤色不同、人物肤色接近背景色、人物不常见的体态(比方说弯腰系鞋带,或者伸懒腰)、人物被遮挡、人物在移动等等。2.要让边缘的位置看起来更加的流畅、稳定、连贯。这些特征在目前的研究中讨论较少,但是用户反馈研究表明,这些因素极大影响人们在使用各类背景效果时的体验。3.要确保模型能够在全世界几十亿部智能手机中都能灵活、高效的运作。只在一小部分最先进的手机中才能使用是不行的,这类手机往往搭载最新款的处理器。

而且,该模型必须能支持各种长宽比的手机,这样才可以在笔记本电脑、Meta的便携式视频通话设备和人们的手机的肖像模式、横向模式中都保证模型的正常使用。
用Meta的AI模型处理后的虚拟背景示例,左为头身像,右为全身像。

真实世界个人图像分割模型的挑战

图像分割的概念不难理解,但获得高精确度的个人图像分割结果却很困难。要有好结果的话,处理图像的模型必须一致性极高、延迟度极低。

不正确的分割图像输出,会导致各种让使用虚拟背景的视讯用户走神的效果。更重要的是,图像分割错误会导致用户的真实物理环境发生不必要的暴露。
因为这些,图像分割模型的精度必须达到交并比90%以上,才能进入实际的市场产品应用。交并比是衡量图像分割预测值与基底真实值重叠部分比值的常用标准度量。由于使用场景与实例复杂度之海量,Meta的图像分割模型要达到的交并比,最后10%完成起来远比之前的所有部分都更难。

Meta的软件工程师们发现,当交并比已达到90%时,图像的可衡量指标趋于饱和,在时间一致性与空间稳定性上难有更好提升。
为了克服此障碍,Meta开发了一个基于视频的衡量系统,与其他几个指标一起来解决这额外的难度。

为真实世界应用开发AI训练与衡量策略

AI模型只能从已交付的数据集里学习。所以想要训练出高精度的图像分割模型,光是简单录入一大堆视频用户在明亮室内正襟危坐的视频样本是不行的。样本类型得尽可能贴近真实世界地丰富。Meta AI实验室用了自家的ClusterFit模型,来从不同性别、肤色、年龄、身体姿势、动作、复杂背景、多人数的海量样本中提取可用数据。静态图像的度量值并不准确反映模型实时处理动态视频的质量,因为实时模型通常要有依赖时间信息的追踪模式。为了测量模型的实时质量,Meta AI实验室设计了当模型预测出画面时、计算每帧画面的各指标的定量性视频评估架构。与论文中的理想状况不同,Meta的个人图像分割模型是被日常的海量用户评判性能。如果有锯齿、扭曲、或其他不满意的效果出现,其他性能比基准值好出再多也没用。所以Meta AI实验室直接询问自家产品用户对图像分割效果的评价。结果是边缘不平滑和模糊对用户体验影响最大。针对此需求,Meta AI实验室在视频评估架构中,另添加了「边缘交并比」这一新指标。当画面的普通交并比超过90%、几近饱和时,边缘交并比就是更需注意的指标了。而且,画面时间一致性不够,会带来图形边缘的混杂效果,这也会影响用户体验。Meta AI实验室用两种方法来测量画面的时间一致性。首先,Meta研究人员假设时点紧邻的两帧画面,图像基本一致。所以任何模型上的预测差异都代表最终画面会有时间不一致。其次,Meta研究人员从时点紧邻的两帧画面的前景动作入手。前景里的光流能让模型从第N帧的预测值推进到第N+1帧。然后研究者就将此预测值与真实的N+1帧数值对照。这两种方法中测算出的差异度都以交并比这一度量来体现。Meta AI实验室使用了来自30种的100余类人群的1100个视频样本来输入AI模型,分类包括所有人类表征性别与菲茨帕特里克量表上的肤色色调。分析结果是,Meta的AI模型在所有人群子分类的视像处理效果上都有差不多的显著准确性,交并比与置信度都在95%以上,各分类间交并比差异基本都在0.5个百分点左右,性能优异可靠。  不同肤色与性别人群的视频,Meta的AI模型处理后的交并比数据

优化模型

架构Meta研究人员使用FBNet V3作为优化模型的主干。这是一种由多层混合形成的解编码结构,每一层都有相同的空间分辨率。

研究人员设计了一种配备轻量级解码器加重量级编码器的架构,这样可以拥有比全对称设计的架构更好的性能。生成的架构由神经架构搜索支撑,并对设备上运行的速度进行了高度优化。
语义分割模型架构。绿色的长方形代表卷积层,黑色的圆圈代表各层融合点。数据学习研究人员使用离线大容量的PointRend模型为未注释的数据生成地一个伪标准实值标签,以此来增加训练的数据量。同样地,研究者使用师-生半监督模型来消除伪标签中的偏差。长宽比相关的重新采样传统的深度学习模型会将图像重新采样成一个小正方形,输入到神经网络里。由于重新采样,图像会出现畸变。并且由于每帧图像具有不同的长宽比,因此畸变的幅度也会不相同。畸变的存在、畸变程度的不同,会导致神经网络AI学习到不稳健的低层次特征。这种畸变引起的限制在图像分割应用中会被放大。如此一来,如果大多数训练图像都是肖像比例,那么该模型在实景图像和视频上的表现要差得多。

为了解决这个问题,研究团队采用了 Detectron 2 的长宽比相关的二次采样方法,该方法将具有相似长宽比的图像分组,并将它们第二次采样到相同的大小。

左为长宽比不调带来畸变的基线图像,右为AI模型处理后的改进图像自定义补边框长宽比相关的二次采样法需要将具有相似长宽比的图像补边框,但常用的零补框方法会产生伪影(artifact)。更糟糕的是,当网络的深度不断增加的时候,该伪影会扩散到其他区域。过去的办法是,使用复用边框的手段来移除这些伪影。

最新的一项研究中显示,卷积层中的反射边框可以通过最小化伪影传播的方式来进一步提高模型的质量,但相对应地,时延成本也会增加。伪影的案例,和如何移除伪影的示例如下。
追踪时间不一致,会让AI处理图形时在帧到帧之间存在预测性差异,带来闪烁(flicker),它的出现会极大损害用户的体验。为了提高时间一致性,研究人员设计了一个名为「面具侦测」的检测过程。它从当前帧图像(YUV)中获取三个通道,并且还存在第四通道。对于第一帧图像,第四通道只是一个空矩阵,而对于随后的帧数,第四通道则是对上一帧的预测。

研究人员发现,这种利用第四通道跟踪的策略显著提高了时间一致性。同时,他们还采用了最先进的跟踪模型中的一些想法,例如CRVOS和变换不变性CNN等建模策略,来获得时间上较为稳定的分割模型。

「面具侦测」法流程图边界交叉熵构建平滑、清晰的边界,对于AR图像分割的应用至关重要。除了在分割图像的时候会有的标准交叉熵损失之外,研究人员还必须考虑边界加权损失。研究人员发现,对象的内部是更容易被分割的,所以Unet模型与其之后大多数变体的作者都建议使用三元图加权损失来提升模型的质量。然而,三元图加权损失有一个限制,就是三元图只会根据标准实值来计算边界区域,因此它对所有的误判都不敏感,是一种非对称的加权损失。受「边界交并比」的启发,研究人员采用交并比的方法为标准实值和各种预测提取边界区域,并在这些区域中建立交叉熵损失。在边界交叉熵上训练的模型,很明显是优于基准的。如此除了能使最终掩码输出中的边界区域更清晰之外,应用新方法后,新模型的误报率更低。

 Meta虚拟背景处理器应用的新AI模型,其新功能效率更高、更稳定,也更多样化。这些优化都会提高背景滤镜的质量和连贯性,从而提高在产品中的应用效果。举例来说,优化过的分割模型可以被用来识别多人场景和人物的全身,也可以识别被沙发、书桌或餐桌遮挡的全身人像。除去应用在视频通话以外,通过虚拟环境和和现实世界中的人、物结合,这项技术还可以给AR和VR技术增添新的维度。在建设元宇宙、营造沉浸式体验时,这项应用会尤其重要。

 

参考资料:https://ai.facebook.com/blog/creating-better-virtual-backdrops-for-video-calling-remote-presence-and-ar/


相关文章
|
9天前
|
人工智能 自然语言处理 Java
【100%好礼】诚邀体验SoFlu-JavaAl开发助手,重塑AI编码价值
在这个数字化时代,软件开发任务繁重,飞算科技推出SoFlu-JavaAl开发助手,诚邀您体验AI编码新境界。它不仅生成代码,还通过自然语言理解需求,精准生成完整工程源码,大幅缩短设计工期,提升效率。SoFlu-JavaAl支持一键构建Java Maven工程,轻松合并老项目,快速响应需求变更。参与体验还有机会获多重好礼!
|
23天前
|
人工智能 小程序
【一步步开发AI运动小程序】十五、AI运动识别中,如何判断人体站位的远近?
【云智AI运动识别小程序插件】提供人体、运动及姿态检测的AI能力,无需后台支持,具有快速、体验好、易集成等特点。本文介绍如何利用插件判断人体与摄像头的远近,确保人体图像在帧内的比例适中,以优化识别效果。通过`whole`检测规则,分别实现人体过近和过远的判断,并给出相应示例代码。
|
23天前
|
机器学习/深度学习 人工智能 UED
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。
109 27
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
|
1天前
|
人工智能 移动开发 JavaScript
如何用uniapp打包桌面客户端exe包,vue或者uni项目如何打包桌面客户端之electron开发-优雅草央千澈以开源蜻蜓AI工具为例子演示完整教程-开源代码附上
如何用uniapp打包桌面客户端exe包,vue或者uni项目如何打包桌面客户端之electron开发-优雅草央千澈以开源蜻蜓AI工具为例子演示完整教程-开源代码附上
|
20天前
|
存储 人工智能 自然语言处理
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
ChatMCP 是一款基于模型上下文协议(MCP)的 AI 聊天客户端,支持多语言和自动化安装。它能够与多种大型语言模型(LLM)如 OpenAI、Claude 和 OLLama 等进行交互,具备自动化安装 MCP 服务器、SSE 传输支持、自动选择服务器、聊天记录管理等功能。
127 15
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
|
16天前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
63 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
22天前
|
人工智能 安全 PyTorch
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案,基于多线程技术和异步事件循环,提供高吞吐量、低资源占用的数据加载功能,支持分布式系统和主流AI框架PyTorch。
51 10
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
|
19天前
|
机器学习/深度学习 人工智能 算法
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
49 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
|
17天前
|
人工智能 小程序 API
【一步步开发AI运动小程序】十七、如何识别用户上传视频中的人体、运动、动作、姿态?
【云智AI运动识别小程序插件】提供人体、运动、姿态检测的AI能力,支持本地原生识别,无需后台服务,具有速度快、体验好、易集成等优点。本文介绍如何使用该插件实现用户上传视频的运动识别,包括视频解码抽帧和人体识别的实现方法。
|
22天前
|
人工智能 小程序 UED
【一步步开发AI运动小程序】十六、AI运动识别中,如何判断人体站位?
【云智AI运动识别小程序插件】提供人体、运动及姿态检测的AI能力,本地引擎无需后台支持,具备快速、体验好、易集成等优势。本文介绍如何利用插件的`camera-view`功能,通过检测人体站位视角(前、后、左、右),确保运动时的最佳识别率和用户体验。代码示例展示了如何实现视角检查,确保用户正或背对摄像头,为后续运动检测打下基础。