文 / 梅大为(张行)
整理 / LiveVideoStack
大家好,我是阿里巴巴高级技术专家梅大为,本次分享的主题是优酷在超高清视频技术的实践,主要内容是优酷在超高清视频技术上的理解和思考,以及在超高清视频上进行修复增强的具体实践。 大众在互联网上观看视频,除了视频本身的内容和VIP的价格以外,最关注的的应该就是视频的观看体验。 根据优酷的用户调查数据来看,很大部分的用户在选择视频APP时更关注是否有蓝光、4K或者HDR、杜比音效这些选项,也有70%的用户会在观看视频1分钟后因为视频清晰度的原因而弃剧,这两个数据都体现出视频观看体验对用户的重要性。
1. 超高清视频体验
经过这么多年的发展,目前互联网视频的观看体验仍然无法满足用户预期,以《血战钢锯岭》中的片段作比较,对比三家蓝光流和介质质量可以发现,腾讯、优酷、爱奇艺三家蓝光流的质量都小于原始介质质量,网友知乎@马小帅也很直接的指出了其中关于码率的问题,码率相较原片相差很多倍,清晰度自然也会有差异。
2. 高清不清晰的原因
码率受限确实是目前互联网视频“高清不清”的主要原因,而码率问题也主要受限于网站带宽成本和用户网络条件两个方面,从视频网站来考虑的话,码率意味着带宽,带宽意味着成本,在视频网站多数都还在亏损的大环境下,加大在带宽上的投入是比较困难的。 如果从用户角度来看码率受限的问题,可以看到目前多数用户的有效带宽还是在几兆到十几兆的范围内。 因此视频网站的核心技术问题是如何做到窄带高清,在保障带宽不增长的前提下提供更优质的视频体验,提升单位带宽承载的信息量。
3. 优酷超高清视频之路
3.1 窄带高清
窄带高清目前有很多公司都在做,而优酷主要基于硬压缩能力和内容分析理解两方面来解决窄带高清的问题,提升压缩工具的硬压缩能力,不断适应新的标准,在同一个标准体系框架内也可以不断地迭代压缩算法。 从压缩对象/视频内容来讲的话,根据对质量贡献的不同将内容进行分类,比如噪声、干扰对视频清晰度有副作用内容,以及背景和杂乱的细节、人脸特写等内容,将其进行区别的视频处理和压缩,以此达到最优带宽和清晰度的效果。 基于这两点优酷也在前几年推出了窄带高清2.0版本,在业界有一些不错的反响。
3.2 从窄带高清到超高清
从窄带高清到超高清是一个巨大的跳跃,因为窄带高清归根结底还是个转码技术,追求的目标是在转码过程中的损失最小,而超高清是一个端到端全链条的体验技术,关注的不仅仅是转码,还包括转码前的介质和转码后流渲染的质量,超高清各项数据指标如上图所示。
从视频生产消费的全链条中来看优酷实现超高清过程中遇到的问题,视频链条主要分为介质制作、流生产和终端渲染三个部分,这三个部分对于视频的质量和清晰度都非常重要,其中介质制作基本决定了视频清晰度的基础,这一步处理不好再之后就很难补救,而在流生产转码过程中需要尽量减少压缩带来的损失,尽可能的保留原清晰度,最后在终端渲染方面需要充分利用母带的能力,做最适合的颜色和亮度呈现。 优酷在三个部分所做的工作如上图所示。
4. 优酷超高清实践
4.1 介质品质保障
对于介质品质保障,优酷首先推出了视频介质标准,在此之前由于介质来源很多,介质的制作流程各不相同,所以介质的画质也不同。 在优酷的视频库中可以看到各种各样分辨率的介质,很多介质分辨率和码率不匹配,最终播放效果就不可能做到清晰,因此优酷推出视频介质标准,希望借此规范介质的码率和分辨率,保障在视频介质制作部分不出差错。
仅仅依靠视频介质标准没办法对介质品质进行保障,因为高码率和高分辨率并不是高清晰度的充分条件,因此优酷利用基于内容理解的线上质量检测系统,对常见的几种介质问题分别建模、设计算法、训练模型和检测。
有了视频介质标准和质量检测系统还是不能够充分保障介质的品质,因此需要在后期通过高质剪辑将质量检测中发现的问题解决。 优酷在这方面也有在做一些尝试,包括和后期公司进行定期交流,了解介质在后期公司的处理流程、使用的工具和设置参数,如果遇到疑难素材,优酷会给后期公司开放云端修复工具来处理,完成后期替换和剪辑。
5. 视频画质修复
5.1 算法修复
关于视频画质修复很容易让人联想到老电影,老电影也是视频画质修复的主要应用场景,优酷创立时间很早,所以视频库中有很多老视频资源,而老视频资源中存在的最普遍问题就是噪声和模糊,优酷的解决方式有母带介质、胶片修复和算法修复三种。 首先可以去找版权方拿到更好的介质源进行替换,但大多时候版权方也没有更好的介质。 其次可以用当前的介质拿去做胶片修复,但胶片修复费时费力,没办法大规模应用。 最后,算法修复的好处是可以做批量化处理,可以设计算法去解决视频画质的问题,但缺点是通用算法没办法对个别问题进行修正,所得到的结果不会那么稳定。
5.2 视频去噪
噪声在视频中是一个普遍存在的问题,不仅仅出现在老电影中,在新片和特定的场景中也会出现噪声,噪声会影响主观画质,并且噪声会使得码率增加,对压缩并不友好,因此视频去噪就显得尤为重要。
优酷面对的视频种类很多,噪声种类也很多。 优酷使用基于网络的去噪方式来做视频的去噪处理,要做到兼容噪声多样性就需要多种噪声增强数据去训练网络,使得它可以对不同噪声进行处理。 针对噪声强度的问题,优酷也有前置的噪声估计模块,让噪声估计结果来指导网络进行去噪处理。 最后,视频去噪有丰富的时间和空间信息,所以优酷使用三维去噪网络保证去噪效果的最大化。
关于去噪流程框图首先来看去噪网络模块,三维的卷积去噪网络和普通去噪网络的不同是,在网络输入除了不同的多帧数据外还包括代表噪声强度的额外数据输入,依靠噪声强度来指导网络进行更好的卷积,兼容大噪声和小噪声的情况,根据线下运行的数据来看还是很有效果的,而这个方法的代价是需要一个比较可靠的噪声强度估计作为前置处理步骤。 MEMC又叫做运动估计运动补偿模块,它的作用是抵消画面中的运动,把相关的内容在时间和空间上聚集起来,方便三维的去噪网络做卷积处理。
噪声估计也是视频去噪中比较经典的问题,其中目标压制的噪声又分为热噪声和压缩噪声两类,对热噪声估计采用图像分块方差统计量,方法虽然老却十分有用; 对压缩噪声的估计采用CNN分类网络,这两个噪声估计完之后会将两个结果合并形成每一帧的噪声估计值,把帧间的各种估计效果做融合和后处理。 值得一提的是,在后处理中由于噪声有很强的场景相关性,在同一个场景内噪声是差不多的,但在场景切换时噪声会发生突变,所以在做噪声后处理的时候需要基于场景进行噪声估计,保证后处理后噪声在一个场景中是缓变的,去噪效果有一致性,在场景切换时去噪效果要能够及时响应,避免由于场景切换去噪效果出现呼吸效应。
ME、MC在传统的图像处理中运用十分普遍,ME更多用于多尺度运动搜索,先在大尺度上进行运动搜索,然后把搜索结果传递到小尺度上,这种方式效率很高,既能保证大物体运动与场景的一致性,也能保证对小物体与运动边界刻画的精细程度。 MC的目标是基于匹配score融合当前块和最佳匹配块,最终融合需要考虑匹配的程度如何,匹配的越好就越多的使用临近块的能量,匹配的越差就越多使用当前块的能量,这样做既能保证去噪效果,又能克服匹配很差导致去噪效果不佳。
5.3 老片字幕修复
影视资源的陈旧感虽然多半来自于内容,但还是有一部分是由于字幕的影响,如果对字幕进行修复的话也可以在一定程度上将老影视资源的观看质量提升一个台阶。
字幕修复的流程分为字幕检测、字幕分割、字幕擦除和字幕回贴四个步骤,具体实现过程由上图所示。
5.4 算法创造价值
视频修复从其他维度来看算法创造的价值,左上图的内容表示的是优酷最为关注的用户观看时长数据,可以看到在视频修复前后用户的观看时长有明显的提升,对于某些视频甚至可以达到较修复前几倍的提升。 右上角是从用户弹幕数据中观察视频修复对于用户的影响,红色是视频修复完成的时间点,在修复前弹幕对于画质的吐槽较多,而修复后弹幕对于画质清晰的内容逐渐增多。 左下相关媒体对于优酷高清画质的报道,而右下的图是优酷将《士兵突击》进行画质修复后的一场放映会,吸引了大量粉丝前来观影,这样的线下互动对优酷自身来讲也很有意义。
6. 超高清增强
做超高清增强很大一部分的原因,是由于家用电视的尺寸越来越大,以更近的距离看更大屏幕的诉求使得用户对视频清晰度有了更高的要求,因此超高清就变得非常有必要。 在真正的超高清设备上看超高清的视频流,观感是完全不一样的。 超高清的本质是信息量,信息量主要由采集时获得的分辨率、帧率、动态范围和视角决定,超高清在云端重建的时候就可以补足在采集过程中没有拿到的信息,以此获得更好的体验效果。 增强手段包括视频超分辨率、视频帧率上采样、SDR转HDR和视角重建。
6.1 视频超分辨率问题分析
视频超分辨率目标就是提升空间分辨率,补足内容的高频细节,其背后的假定是高频与中低频有一定的联系,通过中低频来做高频的反演,这一般是通过深度网络来解决这个问题。 另外,噪声对于视频增强有很大的干扰,处理不好容易使超分辨率出现bad case,在这部分优酷是采用一些适量加噪的数据去训练网络,让网络可以具备一定的抗噪能力。 视频超分辨率问题比较复杂,不可能用一个网络去解决所有问题,因此优酷在这部分把问题分为很多类,做到专网专用来提升最后的超分效果。 最后,提前预估网络能力,聚焦目标效果,在做网络训练时把握尺度,这里需要对训练数据做预处理,评估训练难度。
6.2 视频超分辨率训练数据产生
由于优酷主营业务是互联网视频,所以关于视频训练的数据非常丰富,同一个视频内容既有高清版本又有低清版本,这种情况下就可以对网络进行真实的训练,但通常情况下没有这么好的数据对供测试使用,往往只有高清的视频版本,所以低清视频更多是靠随机压缩、模糊、采样和噪声自己生成,根据实际问题来进行调整,这两种方式都可以产生训练数据对,最后再经过数据的筛选和重置得到最终的训练数据对。
6.3 视频超分辨率训练数据处理流程
当获得训练数据对后,处理流程就更像一个自然而然的过程,从输入视频开始,经过分类得到不同的类别,不同的类别用不同的网络处理,最后得到超分结果。 流程图虽然简单,但涉及分类的部分其实非常复杂,首先可根据内容标签将视频分为电影、动漫、电视剧等类型,也可以根据内容来源和属性分为DVD超分1080P、1080P超分4K等类型,核心思想是把退化方式相近的视频分成同一类,退化方式差异大的视频分成不同类做不同处理,这个分类问题目前还在不断地探索和发展。
6.4 SDR与HDR对比效果
SDR与HDR对比之下可以看到SDR画面发灰且对比度不够,而HDR在颜色丰富度和亮度、对比度都要优于SDR。
6.5 超高清终端渲染
优酷在超高清终端渲染上做了一些超高清的工作,由于不同终端存在差异性,需要正确认识每个终端的能力去做适配。 另外,不同的终端设备存在一定的显示误差,也需要去做矫正以求在不同终端设备上显示效果一致。 后处理分为设备本身的后处理和自身视频的后处理,前者包括硬件芯片和系统层的后处理,优酷将其纳入整个超高清的处理链条中,以达到最终的渲染效果。 优酷自身的后处理包括画质增强和渲染工作等。
7. 关于超高清技术的未来
关于超高清的未来,优酷有清晰的战略规划。 首先是真4K的拍摄&制作,这是从介质制作方面提高视频的质量,而且拍摄过程要做到高效和低成本才能够普及,目前已和合作伙伴有了些阶段性的进展,在未来应该会达到更好的制作水平。 在真4K介质制作能力发展和普及的过程中,云端超高清重置也会起到补充作用,由于单纯的靠采集端来制作超高清介质肯定是不现实的,有关VR的技术一定需要视角重建的工作,这部分在超分辨率技术中也是需要不断深入。 在信息压缩方面,优酷更多将展望下一代的编码标准和更好的通信技术,包括已定稿的H.266和目前比较火热的5G通信技术,未来关于超高清技术的发展一定会更加精彩。
————————————————
版权声明:本文为CSDN博主「LiveVideoStack_」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/101441374
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。