抠图剧“一毛特效”不忍直视,以假乱真才是 AI 视频抠图的真水平

简介: 粗制滥造的抠图影视剧画面简直不忍直视,真正的抠图技术应该是什么样的?

--------点击屏幕右侧或者屏幕底部“+订阅”,关注我,随时分享机器智能最新行业动态及技术干货----------

影视剧抠图乱象频出,AI 抠图以假乱真

这几年,影视剧抠图乱象频出,粗糙、简陋的抠像操作所呈现出的“一毛特效”简直不忍直视,硬生生碾压了“五毛特效”。

image.png

抠图过的画面具有很多典型的“硬伤”:人像比例失调、表情僵硬,人物与背景结合生硬,背景虚化等,令人打眼一看上去就觉得十分违和,严重影响了用户的观看体验。

image.png

阿里巴巴资深算法专家任海兵在接受 InfoQ 采访时表示,现在很多影视剧抠图技术“太假”、特效效果不好,一方面因为拍摄经验不足,无法和抠图技术很好的配合,另一方面可能是因为后期制作费用不足,导致后期没有人工仔细校验修改。

其实,抠图是影视剧后期使用非常普遍的一种技术,例如在好莱坞的电影拍摄过程中特效制作基本都会使用绿幕拍摄,然后通过后期抠图合成技术。

不过这项技术大多数时候都用不上。制片人何静曾表示,这类技术使用的比例一般控制在 5% 至 10%,多用在无法正常拍摄或者无法实现以及不能呈现最佳效果的情况下。

但现在因为制作成本,演员演技、档期冲突等因素,大面积抠图的影视剧越来越多,且质量堪忧,给观众一种抠图技术很不靠谱的感觉,这伤害了技术本身,也让技术污名化。

不能否认的是,随着抠图技术更加成熟以及影视剧、视频制作的需要,智能抠图将是大势所驱。如何让抠图更加逼真,效果更加自然,AI 将在其中发挥越来越关键的作用。现在已有很多修图软件应用上了 AI,随着视频 AI 算法的发展,视频智能抠图也开始新兴起来。

此外,长期来看,智能抠图也将是节省成本、提高效率和精度的最优选择。

相对于手工 PS 来说,智能抠图优势突出,一方面,可以大幅度提高抠图效率。以图像抠图为例,一个复杂的人物手工抠图需要手工几分钟时间;而利用交互式智能抠图算法,几秒钟就可以完成。智能抠图还可以达到“毛发毕现”的效果,凸显毛发部分的分割精度,这是人手工几乎无法完成的。

传统的图像抠图算法都是基于非深度学习的算法,例如 KNN matting,Closed-Form matting,Bayesian matting 等。AI 抠图是利用深度学习算法从图像和视频中把用户感兴趣的物体扣出来,可以把抠出来的物体放到新的背景上,合成新的图片和视频。

任海兵表示,目前流行的 AI 抠图算法都是基于深度学习的算法,相对于传统算法,AI 抠图算法有两个优点:一是抠图精度更高,二是可以在 GPU 上并行计算,速度更快。

阿里文娱智能视频抠图技术

智能抠图最直接用到的 AI 技术是图像抠图算法(image matting)。但为了得到更好的抠图效果,目前很多抠图技术都采用多种算法结合的解决方案,还包括显著性物体检测、图像语义分割和实例分割等算法。

相比图像抠图,视频抠图算法最大难点是时序一致性。“对于视频抠图结果,一帧帧看结果都很不错,但是连在一起,边缘地区就会有抖动,抠图时序的一致性不够好”,任海兵说。

视频智能抠图技术就是在图像抠图技术基础之上,增加视频物体分割等算法来保证视频抠图结果的时序一致性,达到“抖动小,更平滑”的分割效果。

先来感受一下阿里的视频抠图技术:

视频1 (1).gif

视频 1

2.gif

视频 2

抠图后,视频中的人神情、动作非常生动、自然,人物的头发丝纤细可见,视频主体人物和背景的衔接流畅,能够准确区分,整个画面很完整,傻傻分不清哪一个是抠图后的,足以以假乱真了。如果对比上面那些粗糙的抠图画面,效果简直“吊打”了。

值得一提的是,该视频的前景和背景颜色比较接近,在这样的情况下,要保证抠图对象的完整性和局部细节的精确度,所需的技术难度较高,尤其对于头发丝、衣服褶皱等抠图精细程度高的部分。

任海兵表示,视频人物抠图,从人物分割来看,算法模型需要学习人物的先验知识,在前景 / 背景颜色比较接近和复杂纹理的情况下,人的先验知识可以起到重要的作用,能保证抠图对象的完整性。

抠图对象的整体性主要依赖图像高层语义特征,局部细节的精确性侧重图像低层局部特征。实际系统中二阶段的抠图方法比 E2E 的抠图算法能够达到更高的精度。二阶段的抠图方法中,第一阶段是硬分割阶段;第二阶段是软分割,首先要保证硬分割结果中对象的整体性和边缘的准确性,然后在准确性的基础上利用软算法达到“毛发毕现”的效果。因此,在第一阶段中就需要确保对象的整体性和边缘的准确性。

“为了既保证对象的整体性,又能得到精确的局部细节,从算法角度,高层特征和低层特征需要很好的融合在一起 ",任海兵介绍。

目前很多图像分割网络,例如 HRnet 在这方面都处理得比较好。任海兵团队参考 HRnet、Deeplab V3+ 等语义分割网络提出了对应解决方案,该方案目前在最重要的语义分割数据集 Cityscape Test 数据集上达到了 84.3% 的正确率。

智能视频抠图商用落地

目前,阿里文娱所采用的视频抠图解决方案均是针对文娱业务的应用场景定制化研发,其目的是从影视综剧中抠出人物区域,进行视频内容的二次生成和创作。

“我们会根据人物抠图的特点,设计一些模块,例如人体分割的自动评估模块等”,任海兵表示,“我们采用的抠图原始数据基本上都是来自优酷的影视综剧,这是我们业务的场景,我们尤其看重古装人物的分割,因为古装人物复杂的头饰、服饰、武器等都是分割算法的难点”。目前,阿里已经建立了业界最大的视频人物分割数据集,并将在今年阿里文娱的 MEIDA AI 算法大赛“高精度视频人物分割赛道”中部分发布。

阿里文娱主要采用 AI 与人工结合的抠图模式,利用 AI 算法为人工赋能,大规模提高人工效能。例如在优酷商业化广告项目中,全自动的视频人物抠图后接入人工审核和交互式分割链路,也就是说,如果全自动的视频人物抠图的结果不合格,后续将由人工进行修补。

从算法的角度讲,人物抠图和物体抠图并没有本质的区别,算法原理、网络框架基本上都是一样的,只是数据不相同。因为视频中人是观众最感兴趣的对象,所以阿里文娱更侧重于影视综剧中的人像抠图。针对领域,任海兵团队提出了视频 / 图像人物无监督和交互式抠图算法。目前,阿里的算法已经具备商用落地的能力,正逐步应用于多个项目。

最近几年,智能抠图应用开始在工业领域逐步落地,在商品海报制作、视频弹幕等场景运用,上述场景属于简单场景,图像背景比较简单或者对分割精度要求不高,主要采用人工 +AI 方式抠图。

而影视综剧视频制作中给人物换背景等复杂场景,则要求更高的抠图精度和更高的平滑性。这对硬分割和软分割技术都提出了很高的要求。

为了达到软分割高度的平滑性,视频软分割 (video matting) 算法是非常重要的。“但在 video matting 领域,最近几年学术界没有明显的进展。但我相信,随着工业界需求越来越多,越来越多的研究人员会投身 video matting 领域,推动这个领域的发展”,任海兵表示。

他坦言,目前特别智能的抠图算法,特别是视频抠图算法,还处于实验室研究阶段。算法特别复杂,需要大量的计算资源,且算法本身也不是特别成熟,在通用场景和复杂场景下达不到用户的预期,因此只在某些特定的领域内针对具体场景进行优化,达到小范围的商用。市面上,商用软件中的抠图算法,需要处理更加通用的场景,加之受计算资源限制,无法使用特别复杂的算法,还达不到特别的智能。

不过,最近两年,深度学习在像素级分类任务上取得了较大的进展。智能抠图相关的算法,例如图像物体分割、视频物体分割、Image Matting 等也取得了较大的进步。视频抠图在实现高度智能、大规模商用方面的潜力值得期待。

image.png

原文链接:https://www.infoq.cn/article/OAgcWebDFVQShq6Frejc

目录
相关文章
|
10天前
|
存储 人工智能 Serverless
一键解锁 AI 动画视频创作,赢好礼
短视频行业的快速增长使得内容创作的速度和质量成为竞争关键。传统动画故事制作复杂且昂贵,限制了创作者对市场热点的快速反应和创新实现。本方案通过 AI 生成剧本和动画,简化创作流程并降低技术门槛,使创作者能高效生产高质量作品,迅速适应市场需求。
|
10天前
|
人工智能 安全 机器人
重磅发布的「AI视频通话」如何10分钟就实现?
2024年,OpenAI发布GPT-4o,支持文本、音频和图像的组合输入与输出,使交互更接近自然交流。传统语音助手需经历多阶段处理,容易出现延迟或误解,体验感差。本文介绍如何在阿里云上快速创建可视频通话的AI智能体,实现拟人化交互、精准感知、情绪捕捉等功能,提供高质量、低延时的音视频通话体验。通过简单的部署流程,用户可以轻松创建并体验这一先进的人机交互技术。点击“阅读原文”参与活动赢取惊喜礼物。
|
1月前
|
机器学习/深度学习 人工智能 算法
【AI问爱答-双十一返场周】第二场企业办公视频
【AI问爱答-双十一返场周】探讨AI大模型时代对企业办公的影响。AI员工旨在辅助而非替代人类,通过深度学习、大规模训练数据和自我监督学习提升效率。视频介绍生成式智能工具如全妙系列,助力企业内容生产。关注AI问爱答,了解更多AI技术与应用。
|
2天前
|
存储 人工智能 编解码
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
53 9
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
VideoWorld 是由字节跳动、北京交通大学和中国科学技术大学联合推出的自回归视频生成模型,能够从未标注的视频数据中学习复杂知识,支持长期推理和规划任务。
364 8
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
|
5天前
|
人工智能 小程序 程序员
【视频测评 DEMO 参考】VSCode 神级 AI 插件通义灵码:完全免费+实战教程+微信贪吃蛇小程序
VSCode 神级 AI 插件通义灵码:完全免费+实战教程+微信贪吃蛇小程序
99 7
|
3天前
|
人工智能 编解码 vr&ar
Lumina-Video:上海 AI Lab 开源视频生成框架,动态程度可控,支持多分辨率
Lumina-Video 是由上海 AI Lab 和香港中文大学联合推出的高效视频生成框架,支持高质量视频生成、动态程度控制和多分辨率生成。
90 4
|
23小时前
|
人工智能 数据可视化 UED
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法,支持多实体独立运动控制、高质量视频生成,并在 FID、FVD 和用户研究等评估指标上达到最佳性能。
34 10
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
|
27天前
|
人工智能 编解码
CogVideoX-Flash:智谱首个免费AI视频生成模型,支持文生视频、图生视频,分辨率最高可达4K
CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型,支持文生视频、图生视频,最高支持4K分辨率,广泛应用于内容创作、教育、广告等领域。
231 5
CogVideoX-Flash:智谱首个免费AI视频生成模型,支持文生视频、图生视频,分辨率最高可达4K
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪
Emotion-LLaMA 是一款多模态情绪识别与推理模型,融合音频、视觉和文本输入,通过特定情绪编码器整合信息,广泛应用于人机交互、教育、心理健康等领域。
128 11
Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪