Meta开发新虚拟背景处理AI,让元宇宙中人像不再虚糊

简介: Meta开发新虚拟背景处理AI,让元宇宙中人像不再虚糊
【新智元导读】为了让广大视频通话用户体验更佳,也让更多AR、VR用户青睐元宇宙,Meta的AI研发团队最近开发了能更好处理虚拟背景的AI模型

自新冠疫情开始以来,大部分人都已经习惯了在和朋友、同事和家人远程视频通话。视频聊天的时候都使用过虚拟背景。用户在视频时变换背景,能赋予其在虚拟影像中掌控身边环境的权利,减少因环境带来的分心,还能保护隐私,甚至还能让用户在视频里看起来更有精气神。但有些时候虚拟背景呈现出来的效果可能和用户需求的不一样。大部分人都经历过在移动的时候虚拟背景把人脸挡住了,或者是虚拟背景无法识别手和桌子之间的边界。最近,Meta利用强化的AI模型来分割图像,优化了背景模糊功能,虚拟背景功能和其它Meta产品服务的AR效果。这样可以更好的分辨照片和视频中的不同部分。来自Meta AI、现实实验室和Meta其它部门的研究人员和工程师,组成了一个跨部门小组,最近开发了新的图像分割模型,已用在Portal、Messenger和Instagram等很多平台的实时视频通话和Spark AR的增强现实应用中。该小组还优化了双人图像分割模型,已经在Instagram和Messenger上应用了。

如何让AI改进虚拟背景

该小组在推进图像分割的优化过程中,主要有以下三大挑战:1.要让AI学会在不同的环境下也能正常识别。比如说环境偏暗、人物肤色不同、人物肤色接近背景色、人物不常见的体态(比方说弯腰系鞋带,或者伸懒腰)、人物被遮挡、人物在移动等等。2.要让边缘的位置看起来更加的流畅、稳定、连贯。这些特征在目前的研究中讨论较少,但是用户反馈研究表明,这些因素极大影响人们在使用各类背景效果时的体验。3.要确保模型能够在全世界几十亿部智能手机中都能灵活、高效的运作。只在一小部分最先进的手机中才能使用是不行的,这类手机往往搭载最新款的处理器。

而且,该模型必须能支持各种长宽比的手机,这样才可以在笔记本电脑、Meta的便携式视频通话设备和人们的手机的肖像模式、横向模式中都保证模型的正常使用。
用Meta的AI模型处理后的虚拟背景示例,左为头身像,右为全身像。

真实世界个人图像分割模型的挑战

图像分割的概念不难理解,但获得高精确度的个人图像分割结果却很困难。要有好结果的话,处理图像的模型必须一致性极高、延迟度极低。

不正确的分割图像输出,会导致各种让使用虚拟背景的视讯用户走神的效果。更重要的是,图像分割错误会导致用户的真实物理环境发生不必要的暴露。
因为这些,图像分割模型的精度必须达到交并比90%以上,才能进入实际的市场产品应用。交并比是衡量图像分割预测值与基底真实值重叠部分比值的常用标准度量。由于使用场景与实例复杂度之海量,Meta的图像分割模型要达到的交并比,最后10%完成起来远比之前的所有部分都更难。

Meta的软件工程师们发现,当交并比已达到90%时,图像的可衡量指标趋于饱和,在时间一致性与空间稳定性上难有更好提升。
为了克服此障碍,Meta开发了一个基于视频的衡量系统,与其他几个指标一起来解决这额外的难度。

为真实世界应用开发AI训练与衡量策略

AI模型只能从已交付的数据集里学习。所以想要训练出高精度的图像分割模型,光是简单录入一大堆视频用户在明亮室内正襟危坐的视频样本是不行的。样本类型得尽可能贴近真实世界地丰富。Meta AI实验室用了自家的ClusterFit模型,来从不同性别、肤色、年龄、身体姿势、动作、复杂背景、多人数的海量样本中提取可用数据。静态图像的度量值并不准确反映模型实时处理动态视频的质量,因为实时模型通常要有依赖时间信息的追踪模式。为了测量模型的实时质量,Meta AI实验室设计了当模型预测出画面时、计算每帧画面的各指标的定量性视频评估架构。与论文中的理想状况不同,Meta的个人图像分割模型是被日常的海量用户评判性能。如果有锯齿、扭曲、或其他不满意的效果出现,其他性能比基准值好出再多也没用。所以Meta AI实验室直接询问自家产品用户对图像分割效果的评价。结果是边缘不平滑和模糊对用户体验影响最大。针对此需求,Meta AI实验室在视频评估架构中,另添加了「边缘交并比」这一新指标。当画面的普通交并比超过90%、几近饱和时,边缘交并比就是更需注意的指标了。而且,画面时间一致性不够,会带来图形边缘的混杂效果,这也会影响用户体验。Meta AI实验室用两种方法来测量画面的时间一致性。首先,Meta研究人员假设时点紧邻的两帧画面,图像基本一致。所以任何模型上的预测差异都代表最终画面会有时间不一致。其次,Meta研究人员从时点紧邻的两帧画面的前景动作入手。前景里的光流能让模型从第N帧的预测值推进到第N+1帧。然后研究者就将此预测值与真实的N+1帧数值对照。这两种方法中测算出的差异度都以交并比这一度量来体现。Meta AI实验室使用了来自30种的100余类人群的1100个视频样本来输入AI模型,分类包括所有人类表征性别与菲茨帕特里克量表上的肤色色调。分析结果是,Meta的AI模型在所有人群子分类的视像处理效果上都有差不多的显著准确性,交并比与置信度都在95%以上,各分类间交并比差异基本都在0.5个百分点左右,性能优异可靠。  不同肤色与性别人群的视频,Meta的AI模型处理后的交并比数据

优化模型

架构Meta研究人员使用FBNet V3作为优化模型的主干。这是一种由多层混合形成的解编码结构,每一层都有相同的空间分辨率。

研究人员设计了一种配备轻量级解码器加重量级编码器的架构,这样可以拥有比全对称设计的架构更好的性能。生成的架构由神经架构搜索支撑,并对设备上运行的速度进行了高度优化。
语义分割模型架构。绿色的长方形代表卷积层,黑色的圆圈代表各层融合点。数据学习研究人员使用离线大容量的PointRend模型为未注释的数据生成地一个伪标准实值标签,以此来增加训练的数据量。同样地,研究者使用师-生半监督模型来消除伪标签中的偏差。长宽比相关的重新采样传统的深度学习模型会将图像重新采样成一个小正方形,输入到神经网络里。由于重新采样,图像会出现畸变。并且由于每帧图像具有不同的长宽比,因此畸变的幅度也会不相同。畸变的存在、畸变程度的不同,会导致神经网络AI学习到不稳健的低层次特征。这种畸变引起的限制在图像分割应用中会被放大。如此一来,如果大多数训练图像都是肖像比例,那么该模型在实景图像和视频上的表现要差得多。

为了解决这个问题,研究团队采用了 Detectron 2 的长宽比相关的二次采样方法,该方法将具有相似长宽比的图像分组,并将它们第二次采样到相同的大小。

左为长宽比不调带来畸变的基线图像,右为AI模型处理后的改进图像自定义补边框长宽比相关的二次采样法需要将具有相似长宽比的图像补边框,但常用的零补框方法会产生伪影(artifact)。更糟糕的是,当网络的深度不断增加的时候,该伪影会扩散到其他区域。过去的办法是,使用复用边框的手段来移除这些伪影。

最新的一项研究中显示,卷积层中的反射边框可以通过最小化伪影传播的方式来进一步提高模型的质量,但相对应地,时延成本也会增加。伪影的案例,和如何移除伪影的示例如下。
追踪时间不一致,会让AI处理图形时在帧到帧之间存在预测性差异,带来闪烁(flicker),它的出现会极大损害用户的体验。为了提高时间一致性,研究人员设计了一个名为「面具侦测」的检测过程。它从当前帧图像(YUV)中获取三个通道,并且还存在第四通道。对于第一帧图像,第四通道只是一个空矩阵,而对于随后的帧数,第四通道则是对上一帧的预测。

研究人员发现,这种利用第四通道跟踪的策略显著提高了时间一致性。同时,他们还采用了最先进的跟踪模型中的一些想法,例如CRVOS和变换不变性CNN等建模策略,来获得时间上较为稳定的分割模型。

「面具侦测」法流程图边界交叉熵构建平滑、清晰的边界,对于AR图像分割的应用至关重要。除了在分割图像的时候会有的标准交叉熵损失之外,研究人员还必须考虑边界加权损失。研究人员发现,对象的内部是更容易被分割的,所以Unet模型与其之后大多数变体的作者都建议使用三元图加权损失来提升模型的质量。然而,三元图加权损失有一个限制,就是三元图只会根据标准实值来计算边界区域,因此它对所有的误判都不敏感,是一种非对称的加权损失。受「边界交并比」的启发,研究人员采用交并比的方法为标准实值和各种预测提取边界区域,并在这些区域中建立交叉熵损失。在边界交叉熵上训练的模型,很明显是优于基准的。如此除了能使最终掩码输出中的边界区域更清晰之外,应用新方法后,新模型的误报率更低。

 Meta虚拟背景处理器应用的新AI模型,其新功能效率更高、更稳定,也更多样化。这些优化都会提高背景滤镜的质量和连贯性,从而提高在产品中的应用效果。举例来说,优化过的分割模型可以被用来识别多人场景和人物的全身,也可以识别被沙发、书桌或餐桌遮挡的全身人像。除去应用在视频通话以外,通过虚拟环境和和现实世界中的人、物结合,这项技术还可以给AR和VR技术增添新的维度。在建设元宇宙、营造沉浸式体验时,这项应用会尤其重要。

 

参考资料:https://ai.facebook.com/blog/creating-better-virtual-backdrops-for-video-calling-remote-presence-and-ar/


相关文章
|
14天前
|
人工智能 安全 测试技术
探索AI在软件开发中的应用:提升开发效率与质量
【10月更文挑战第31天】在快速发展的科技时代,人工智能(AI)已成为软件开发领域的重要组成部分。本文探讨了AI在代码生成、缺陷预测、自动化测试、性能优化和CI/CD中的应用,以及这些应用如何提升开发效率和产品质量。同时,文章也讨论了数据隐私、模型可解释性和技术更新等挑战。
|
20天前
|
人工智能 小程序
【一步步开发AI运动小程序】五、帧图像人体识别
随着AI技术的发展,阿里体育等公司推出的AI运动APP,如“乐动力”和“天天跳绳”,使云上运动会、线上健身等概念广受欢迎。本文将引导您从零开始开发一个AI运动小程序,使用“云智AI运动识别小程序插件”。文章分为四部分:初始化人体识别功能、调用人体识别功能、人体识别结果处理以及识别结果旋转矫正。下篇将继续介绍人体骨骼图绘制。
|
20天前
|
人工智能 小程序 vr&ar
AI运动小程序开发常见问题集锦二
截至当前,我们的AI运动识别小程序插件已迭代至第23个版本,广泛应用于健身、体育、体测、AR互动等场景。本文针对近期用户咨询,汇总了常见问题,帮助用户减少开发成本,提高效率。主要涵盖计时与计数模式的区别、综合排行榜生成方法、全屏模式适配及无开发能力用户的解决方案。
|
1月前
|
人工智能 编解码 小程序
【一步步开发AI运动小程序】四、小程序如何抽帧
随着AI技术的发展,阿里体育等公司推出的“乐动力”、“天天跳绳”等APP使云上运动会、线上健身等概念备受关注。本文将引导您从零开始开发一个AI运动小程序,利用“云智AI运动识别小程序插件”。文中详细介绍了微信小程序抽帧的相关API、设置及注意事项,帮助开发者更好地实现AI运动功能。下篇将介绍人体识别技术,敬请期待。
|
1月前
|
机器学习/深度学习 人工智能 监控
利用AI进行代码审查:提升代码质量和开发效率
【10月更文挑战第12天】本文探讨了AI在代码审查中的应用及其优势,介绍了AI辅助代码审查工具如何通过自动化和持续学习提升代码质量和开发效率。文章还提供了实施AI辅助代码审查的具体步骤和实战技巧,帮助团队更好地利用这些工具。
|
1月前
|
人工智能
添加一个Stable Difussion图像生成应用,通过向AI助手简单的提问,即可快速搭建Stable Diffusion应用至自己的网站中,大幅提升开发效率。
添加一个Stable Difussion图像生成应用,通过向AI助手简单的提问,即可快速搭建Stable Diffusion应用至自己的网站中,大幅提升开发效率。
|
1月前
|
存储 人工智能 NoSQL
使用 MongoDB 构建 AI:Gradient Accelerator Block 如何在几秒钟内让您从零开发 AI
借助 MongoDB,开发者可以存储任何结构的数据,然后使用单一查询 API 和驱动程序将这些数据用于 OLTP、文本搜索和向量搜索处理。
|
1月前
|
机器学习/深度学习 人工智能 算法
打造你的超级Agent智能体——在虚拟迷宫中智斗未知,解锁AI进化之谜的惊心动魄之旅!
【10月更文挑战第5天】本文介绍了一个基于强化学习的Agent智能体项目实战,通过控制Agent在迷宫环境中找到出口来完成特定任务。文章详细描述了环境定义、Agent行为及Q-learning算法的实现。使用Python和OpenAI Gym框架搭建迷宫环境,并通过训练得到的Q-table测试Agent表现。此项目展示了构建智能体的基本要素,适合初学者理解Agent概念及其实现方法。
89 9
|
1月前
|
人工智能 前端开发 测试技术
探索前端与 AI 的结合:如何用 GPT-4 助力开发效率
本文介绍了 GPT-4 如何成为前端开发者的“神队友”,让开发变得更加高效愉快。无论是需求到代码的自动生成、快速调试和性能优化,还是自动化测试和技术选型,GPT-4 都能提供极大的帮助。通过智能生成代码、捕捉 BUG、优化性能、自动化测试生成以及技术支持,GPT-4 成为开发者不可或缺的工具,帮助他们从繁重的手动任务中解脱出来,专注于创新和创意。GPT-4 正在彻底改变开发流程,让开发者从“辛苦码农”转变为“效率王者”。
33 0
探索前端与 AI 的结合:如何用 GPT-4 助力开发效率
|
1月前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。

热门文章

最新文章

下一篇
无影云桌面