用竖屏看热剧!阿里文娱视频横转竖技术实践

简介: 常见的机器视觉问题,诸如目标检测、主体标定、目标追踪、视频增强等作为独立技术问题来求解,是不是有些枯燥?在文娱产业中,如何将这些视觉技术进行创新和组合形成完整技术栈,对海量横屏播放的影视剧和短视频自动转换成竖版播放的视频?

作者:阿里文娱算法专家 闵公

常见的机器视觉问题,诸如目标检测、主体标定、目标追踪、视频增强等作为独立技术问题来求解,是不是有些枯燥?在文娱产业中,如何将这些视觉技术进行创新和组合形成完整技术栈,对海量横屏播放的影视剧和短视频自动转换成竖版播放的视频?
且看阿里文娱摩酷实验室的算法专家闵公在GMIC Live 2020智慧文娱技术专场中的分享,主要介绍如何“基于机器视觉算法自动化”将海量横版长剧集转换竖版视频,包括横版视频的主体自动选择算法,镜头平滑能力等,希望对大家在视觉算法如何运用在文娱行业中有所启发。

核心技术内容包括:
1) 视频横转竖技术链路搭建
2) 复杂环境下主体自动标定模型
3) shot镜头平滑和标定追踪交互机制
4) 视频裁剪导致降质条件下的画面恢复

一、横屏转竖屏的视频裁剪的行业需求

首先,站在海量内容消费者的角度来看,90%以上的视频内容消费者会选择单手竖持手机,同时也有50%以上的用户会选择将屏幕进行竖向的锁定浏览。同时视频内容消费者倾向于将视觉聚焦在焦点主体内容,而不是背景上。
image.png

其次,站在内容生产侧,大剧制作有95%以上是横屏拍摄,站在PGC短内容的制作上,像优酷全娱乐、体育等,多是以横屏内容制作为主。如果通过人工将横版拍摄的视频进行剪辑转竖,效率低,效果不可控。

二.横屏转竖屏的产品落地化进程

优酷人工智能平台推出自研的视频自动化的横屏转竖屏技术,应用于视频二次生产和智能封面图生成业务中,目前该技术已经覆盖优酷的OGC剪辑,海量UPGC竖版短小视频生产,智能封面图生产,同时输出给阿里云,服务于文娱企业客户。
image.png

三.横屏转竖屏的视频技术链路

智能裁剪技术主要应用于以多人或者单人为主体的影视剧场景,我们将目标检测,跟踪,识别等技术进行创新和结合,开发了完整的视频智能裁剪技术链路,面对实际业务中的主体标定,视频帧间抖动,视频黑边填充等问题针对性的研发了算法解决方案,可以根据不同的业务场景将各算法可插拔的配置进主裁剪pipeline中,阿里文娱视频智能裁剪技术的研发给内容行业的素材自动化制作,剪辑作品的视觉效果和制作成本降低等方面都带来了大幅度的提升。

在视频智能裁剪技术链路中,我们研发了前处理模块(包含镜头切分, 画面尺寸判定,黑边检测裁剪等),主体选择模块,主体追踪模块和后处理模块(包含画质增强,字幕/logo检测,画面内容修补等),下面分别介绍四个模块。
image.png

四.视频裁剪核心研发模块

一)前处理模块:
前处理模块包括分镜边界检测模型,画面尺寸判定算法,黑边检测与剪裁算法等三个模块,其中分镜边界检测模型根据视频画面将视频分成多个镜头片段,针对渐变过渡的镜头,采用视频帧的表征向量逐帧计算相似度进行精细切分;
image.png

画面尺寸判定算法使得裁剪可以在不同的画面尺寸中进行自动选择,包括(宽:高)16:9, 4:3, 1:1, 3:4, 9:16等任意尺寸,通过对视频帧进行抽样后根据目标的显著性和运动特性计算得出显著区域的大小进行剪裁尺寸适配;
由于大量upgc横版和竖版视频存在上下黑边填充现象,但上下黑边在自动裁剪后会严重影响用户体验。因此我们使用霍夫变换和直线分类来解决黑边检测与剪裁的问题,并且根据剪裁后的不同尺寸自适应的选择三层重叠样式或者1:1加包框样式进行视频再生产;
image.png

二)主体标定模块
我们根据人工标注的影剧综主体GT数据,设计了主体自动选择模型对视频帧中的主体进行自动标定。主体自动选择模型将视频中的人脸,人体bbox,显著性区域,图像清晰度等候选区域进行roi align对齐后,通过深度卷积网络进行最佳主体选择模型的训练,通过和显著性模型以及注视预测模型进行max-IOU指标对比,我们提出的主体自动选择模型表现SOTA。
image.png

同时我们将主体选择模型应用于复杂环境下的场景(如动物世界,大型晚会,新闻联播等)下进行效果测试,裁剪后的竖版视频效果符合预期,从而验证了我们提出的主体选择模型具备的泛化能力。

在主体数据标注的过程中,我们制定了一套主体选择标注标准,包括主体中心化,主体max尺寸、主体尺寸比例,主体的姿态以及主体稳定性等。完成了主体图像数据集共9.5k的标注,视频数据集125个视频,共13.2万帧的标注。针对视频帧存在的多主体和人工标注的抖动问题,我们引入了reid和平滑滤波来为辅助解决上述两个问题。
image.png

三)主体追踪模块
主体追踪模块包括目标追踪算法,镜头平滑算法,主体标定和主体追踪交互机制。通过对多个物体运行多次SOT追踪得到关键帧后续相邻帧中主体目标对应的位置,形成连续视频帧的镜头标定结果。我们在追踪模块中引入backward tracking策略,将短时track能力扩展为长时跟踪,并进行了local-to-global search based tracking,以此来降低追踪模块和主体标定模型的交互次数和计算时间。同时针对主体切分比例采取了黄金分割比例来提升美学观感。
image.png

由于目标追踪算法得到的镜头剪裁位置并不是平滑渐变的,这导致画面抖动,引起用户观看眩晕等较差体验,因此通过时间序列离群点检测和Kalman filter等技术,将异常定位点t进行平滑,解决了裁剪后视频帧间抖动问题,抖动幅度Jitter Degree得到了显著性的降低,人工评估视频帧后观感流畅。同时通过主体标定和主体追踪交互机制,保证了主体目标在镜头切换情况下的镜头内容连续性。

image.png

四)后处理模块
针对视频剪裁后的视频画质问题,我们开发了后处理模块(包含画质增强,字幕/logo检测,画面内容修补等),主要解决剪裁边界可能的logo/字幕截断问题和裁剪后主体相对放大和编码导致的分辨率降低问题。其中我们针对性的设计了去噪、超分辨率模型,对裁剪后的降质视频进行画质提升,在超分模型研发中,我们在训练数据增强上采用自适应采样算法(如下图所示,红色bbox由随机采样得到,绿色bbox由自适应采样得到)使得采样得到的图像patch集中在纹理细节丰富的区域,在模型设计上,采用了multi-term loss
和multi-branch module的结构进行模型训练,最终超分模型在技术指标psnr和人工背对背打分上都得到了显著提升。
image.png

结束语

视频智能裁剪技术生产的视频和封面图广泛应用于优酷的各个场景,并得到了业务方和阿里云客户的一致认可,我们对视频智能裁剪算法栈进行了整体性能优化,达到处理时间仅1:2视频时长,目前该技术累计对优酷综艺:演技派,这就是街舞,这就是灌篮;优酷剧集:陆战之王,天雷一部之春花秋月,微微一笑很倾城等百部OGC进行裁剪服务,裁剪后的竖版视频用于抖音,微博等外渠宣发和站内投放,同时主体标定算法服务于搜索双列封面图生产,镜头平滑算法服务于弹幕人脸项目,视频裁剪算法已经部署在阿里云上,由于目前行业内竞品尚无成熟技术方案,已经通过申报《基于主体目标标定与追踪的视频智能剪裁技术》,《基于智能画面分析和多层级主体目标标定的图像智能剪裁技术》专利的方式来保障该产品技术的竞争优势,期待阿里文娱视频裁剪技术为中国的视频娱乐行业创造更大价值。同时感谢AZFT计算机视觉与分析实验室的朱建科老师在项目过程中的技术指导和大力支持。

相关文章
|
1月前
|
视频直播 UED
体育动画直播,观赛的新潮流
体育动画直播利用动画技术和实时数据,生动呈现比赛进程,增强观众参与感。篮球、足球及电竞赛事中,通过动画展示球员轨迹和比赛数据,使观众更直观了解比赛进展。熊猫比分推出的最新版体育动画直播产品,界面可高度定制,支持动画UI和品牌LOGO自定义,云传输技术确保比赛进度领先视频直播,极大提升用户体验。
|
编解码 算法 视频直播
服贸会在京举行|淘宝直播携手佳能佳直播联合发布《电商直播高画质开播指南》让品质直播触手可及
服贸会在京举行|淘宝直播携手佳能佳直播联合发布《电商直播高画质开播指南》让品质直播触手可及
233 0
服贸会在京举行|淘宝直播携手佳能佳直播联合发布《电商直播高画质开播指南》让品质直播触手可及
|
存储 人工智能 5G
小米发布会中断:雷军生病,今晚将继续发布折叠屏小米MIX新品
原预计4小时的小米发布会忽然中断,宣布改为分两天举行,发布会暂停的原因竟是雷军身体不适。
238 0
|
存储 供应链 视频直播
智能微投要做影音第三屏,移动兴趣社群或有春天?
就在可穿戴设备、智能插座等各类智能产品风生水起之时,智能微投也正悄悄崛起成为新的热点。明基、海尔、索尼等巨头纷争,互联网公司土豆、小米等先后搅局,新兴科技公司极米、酷乐视后来居上。。。智能微投正顺应智能化大趋势逐渐被推向大众普及型市场,有数据预测2015年中国全年的出货量将达到55.5万台,且这一销量将持续爆炸性增长。与此同时行业开始有声音说智能微投将取代电视和投影仪,占领客厅会议室,甚至还将取代电子白板、互动大屏。难道果真如此轻而易举,智能微投成为下一个风口?
161 0
智能微投要做影音第三屏,移动兴趣社群或有春天?
|
缓存 监控 网络协议
互动直播还有多远?从三大技术难题说起
2个月前,我在某直播平台上看了一场游戏直播,那叫一个难受,连延迟带卡顿,看到后半场卡的我直上厕所,回来后发现画面虽变了但仍旧卡,一气之下果断的关了直播。上个月去上海参加华为手机的发布会,想在现场做一下直播,移动4G竟然连信号都没有,只能退回到3G网络在朋友群发一些图片。面对移动网络的问题,只能是沉默再沉默了。
180 0
互动直播还有多远?从三大技术难题说起
|
安全
来看看阿里家人画笔中的阿里巴巴!
家好呀,第十六届510阿里日要来啦! 这是我们阿里人一年一度向家人表达爱和感恩的节日。 今年抗击新冠疫情的那段时间,几乎所有阿里同学都在家办公。
213 0
来看看阿里家人画笔中的阿里巴巴!
|
存储 视频直播 云计算
探索、前进、方向:上直播的“创业”之路
你是否参加过数十万人同时在线的直播活动,主播画面、声音清晰流畅信息,观众互动发言实时在线。你是否想过这样的场景出现在公司内部,几万甚至十几万员工同时在同一数字空间出现。
|
人工智能 运维 安全
案例酷丨米哈游:二次元手游数智进化史
短短八年,米哈游在二次元游戏领域脱颖而出,9月28日开发公测的新游《原神》再次引发游戏爱好者的广泛关注。而这八年,阿里云也从起步到成熟,从建立面向服务游戏垂直行业的团队,到以行业视角为客户提供体系化的服务和稳定可靠的产品。米哈游和阿里云伴随相生的合作模式,可以作为剖析游戏行业进化转型路径的典型样本。
|
人工智能 算法 双11
天猫精灵21款妙物黑科技曝光,这个双11要热闹了!
未来的天猫精灵将有机会成为人们生活中一个“无处不在”的AI助手
天猫精灵21款妙物黑科技曝光,这个双11要热闹了!
|
移动开发 开发框架 小程序
再添新亮点!3 张图带你走近蚂蚁mPaaS音视频通话组件
远程问诊、线上开户、车载语音通话……蚂蚁 mPaaS 正在“拥抱新技术,探索新未来”。
2174 0
再添新亮点!3 张图带你走近蚂蚁mPaaS音视频通话组件