没有绿幕,AI也能完美视频抠图,发丝毕现,毫无违和感 | CVPR

简介:

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!


在阳台上给小姐姐拍个视频:

01

再把她P到喷泉广场:

02

需要几步?

现在,无需绿幕,AI 就能搞定这件事。

就像这样,随便用手机给小姐姐拍张照片,再在同一地点拍张不带人像的背景图。

03

深度神经网络就能自动分析出 alpha 遮罩和前景色,把小姐姐的发丝都抠得根根分明。

04

视频也是如此。

让憋着笑的同事在实验室白板前表演一段广播体操,再给背景板单独来一张,就可以无中生有把同事“转移”到大厅里,引来路人围观了。

05

这是来自华盛顿大学的一项最新研究,无需绿幕,无需手动创建 Trimap,一个具有对抗性损失的深度神经网络,就能准确预测遮罩,给照片和视频抠图。

论文已经中了 CVPR 2020,代码即将开源。

深度抠图网络 + 鉴别器网络

那么,这样的抠图特技是如何炼成的?

研究人员表示,是具有对抗性损失的深度网络 + 判断合成质量的鉴别器。

深度抠图网络

研究人员先在 Adobe Matting 数据集中的非透明对象子集上对深度神经网络 G 进行了监督训练。

输入是带人像的照片 I 和照片中的背景 B’,以及人像软分割 S 和 运动先验 M(仅对视频而言)。

需要注意的是,在真实环境中,B’ 是通过在真实背景的前景区域随机加入噪声而生成的。

依据输入,网络会预测出 alpha 遮罩 α 和前景图像 F。

06

研究人员提出用背景切换块(Context Switching block,CS block)来取代基于残差块的编码器-解码器。

有什么不同?

举个例子,当人的一部分与背景相匹配的时候,网络会将更多精力放在该区域的细分线索上。

G 网络有四个不同的编码器,分别适用于 I,B’,S 和 M 四种输入。每个编码器分别生成256个通道的特征图。

通过 1×1 卷积,BatchNorm 和 ReLU,I 中的图像特征分别与 B’,S 和 M 结合,每一对组合都会生成 64 通道特征。

最后,将这 3 个 64 通道特征与原始的 256 通道图像特征组合在一起,生成编码后的特征,并传递到由残差块和编码器组成的其余网络。

07

在未标记真实数据上的对抗训练

CS block 和数据增强的结合,可以有效弥合真实图像与 Adobe数据集创建的合成图像之间的差距,但真实图像中仍然有存在一些难点:

  • 将手指、手臂、头发周围的背景痕迹复制到遮罩中;
  • 分割失败;
  • 前景色的重要部分与背景颜色接近;
  • 人像照片和背景照片之间没有对准。

为了应对这些问题,研究人员还提出了一种自监督方案,从未标记的真实数据(真实图像 + 背景)中学习。

用深度抠图网络 G 的单独副本 GReal 组成对抗网络,对抗网络会生成类似于 GAdobe 输出的遮罩,而鉴别器网络 D 会判别结果的真假。

研究人员使用真实输入(手机拍摄)联合训练 GReal 和 D,并用 GAdobe 来提供监督。

与SOTA方法的对比

研究人员将新方法与以下几种 SOTA 方法进行了定性比较:

  • 基于 Trimap 的 Context Aware Matting (CAM)和 Index Matting(IM);
  • 自动遮罩算法 Late Fusion Matting(LFM);

08

09

不难看出,效果改进着实明显。

你觉得怎么样?不妨mark一下,坐等开源。

毕竟有些大胆的想法,可能已经在酝酿了,是吧?

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/zhibo

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-04-08
本文作者:鱼羊
本文来自:“量子位公众号”,了解相关信息可以关注“公众号 QbitAI”

相关文章
|
7月前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
1660 12
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
9月前
|
人工智能 自然语言处理 数据可视化
AI视频培训|格律诗AI 视频创作与自媒体传播——某诗词学会
近日,TsingtaoAI派驻专家团队为某诗词学会学员交付《格律诗AI 视频创作与自媒体传播》培训。本课程精准切中行业痛点——传统诗词创作与现代传播方式的断层。课程摒弃泛泛而谈,直击实操:首日聚焦"工具认知+创作逻辑",系统梳理即梦、可灵等国产AI工具在格律诗意象可视化中的差异化应用,如将"月光在指尖碎裂"转化为动态场景;次日深入"语音表达+自媒体运营",传授用魔音工坊生成情感化配音、坤行数字人打造诗人形象的秘技,更结合抖音、小红书平台特性,解析"前5秒高光片段设计"等流量密码。
798 3
|
人工智能 并行计算 Linux
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度,解决视频生成中的"遗忘"和"漂移"问题,仅需6GB显存即可在普通笔记本上实时生成高清视频。
2795 19
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
3022 9
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
人工智能 算法 API
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。
1744 6
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
|
人工智能 编解码 算法
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
MAGI-1是Sand AI开源的全球首个自回归视频生成大模型,采用创新架构实现高分辨率流畅视频生成,支持无限扩展和精细控制,在物理行为预测方面表现突出。
1480 1
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
|
人工智能 自然语言处理 算法
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
1579 0
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
1166 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
存储 人工智能 安全
AI驱动的幼儿跌倒检测——视频安全系统的技术解析
幼儿跌倒检测系统基于AI视频技术,融合人体姿态识别与实时报警功能,为幼儿园安全管理提供智能化解决方案。系统通过YOLOv9、OpenPose等算法实现高精度跌倒检测(准确率达98%),结合LSTM时间序列分析减少误报,支持目标分类区分幼儿与成人,并具备事件存储、实时通知及开源部署优势。其高效、灵活、隐私合规的特点显著提升安全管理效率,助力优化园所运营。
711 0
AI驱动的幼儿跌倒检测——视频安全系统的技术解析
|
9月前
|
人工智能 自然语言处理 机器人
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型