• ROI
前面所述的JND算法通过对视觉冗余的挖掘能节省30%以上的码率,但这种码率节省是完全基于low level统计信息来获得的,并没有考虑high level语义信息。
针对体育赛事场景中观众们很关注的人物近景特写镜头,我们希望能够让人物特写更清晰地呈现在观众面前。除了通过极致修复生成获得清晰人物特写外,还要通过某种方法使得编码后仍然保持清晰。在此,需要用到我们自研的ROI编码技术。
ROI(Region Of Interest)编码是一项基于感兴趣区域的视频编码技术,简单来说就是给图像中感兴趣区域分配更多码率已提升画质,对其他不感兴趣区域分配较少码率,可实现总体码率基本不变的情况下提升视频整体观看体验。
ROI编码的主要难点在于:
• 要有成本足够低速度足够快的ROI算法,以满足高分辨率高帧率体育赛事直播要求。
• 如何基于ROI进行码控决策,使得ROI区域主观质量提升,非ROI区域主观不下降,同时保持时域连续不闪烁。
在低成本ROI计算方面,我们自研了自适应决策的人物检测跟踪算法,即大部分时间只需要做计算量极小的人物跟踪,只有少部分时间需要做人物检测,从而实现超低成本和快速ROI获取,同时保持很高的精度。
在码控决策上,一方面与编码器结合,在主观和客观之间取得均衡,保持时域一致;另一方面与JND结合,在ROI和非ROI之间取得主观均衡,从而实现场景、质量自适应的码率分配。
ROI算法流程
3) 编码内核
针对体育赛事直播场景,在视频编码内核方面,我们做了主观快划分优化和块效应优化,以提升压缩后视频的主观清晰度,降低块效应,从而提升整体观看体验。
• 主观块划分
编码器的块划分模式决策是根据最佳率失真模型RDO(Rate Distortion Optimization,率失真优化)来决策:
其中D表示失真,R表示编码当前模式所需的bit数。
在块划分决策时,有时会出现最终决策为大块,但从主观上看划分为小块的结果更好的情况。这是因为大块模式虽然失真D更大,但R更小,导致编码器最终决策为大块划分。
针对这种情况,我们修改了不同块划分模式的失真表达式,针对不同大小的块增加不同的权重系数,使得最终划分的结果与主观更一致。
优化前 优化后
优化前块划分 优化后块划分
• 块效应优化
视频编码的率失真理论与人眼感受比较贴切,按照率失真理论构建的编码器也是对人眼主观质量的优化,唯一的问题在块效应,因为人眼会放大直线,对块效应很敏感。
我们观察到,在基于客观的RDO(Rate Distortion Optimization,率失真优化),编码部分模式会放大块效应,而265协议中的deblock在该场景失效。同时我们发现在平坦区域场景,模糊加噪声的效果要优于清晰块效应。
基于以上观察,我们采用了如下块效应优化策略以尽量减少块效应,提升观看体验。
块效应优化算法流程
下图是我们做块效应优化前后的对比图。可以看出,右边做了优化的结果中块效应明显降低。
优化前 优化后
4) 视频效果展示
通过前述视频处理、码率分配优化和编码内核优化,最终实现画质极致修复和1080p下50fps直播转码,为观众提供流畅、稳定和高清的观看体验。
点击这里查看视频:左为源流效果,右为修复后效果
由此可见,通过与百视TV的NBA赛事合作,充分体现了“窄带高清2.0”技术在篮球赛事直播中对视觉体验提升的重要价值,其带来同等画质下更省流、同等带宽下更高清的商业意义与观看体感平衡。
未来,窄带高清技术也将持续升级,通过算法能力进一步提升修复生成效果、降低码率和优化成本。与此同时,该项技术也将应用于更多的顶级赛事活动,在成本优化调和之上,实现视效体验的全新升级。
发布时间:2022年6月29日
作者:明烁、孟婆
参考文献:
[1] ARCNN:Chao Dong, et al., Compression Artifacts Reduction by a Deep Convolutional Network, ICCV2015
[2] MFQE:Ren Yang, et al., Multi-Frame Quality Enhancement for Compressed Video, CVPR2018
[3] DeepDeblur:Seungjun Nah, et al., Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring, CVPR2017
[4] FBCNN:Towards Flexible Blind JPEG Artifacts Removal, ICCV2021
[5] STDF:Jianing Deng, et al., Spatio-Temporal Deformable Convolution for Compressed Video Quality Enhancement, AAAI2020
[6] NAFNet:Liangyu Chen, et al., Simple Baselines for Image Restoration,https://arxiv.org/abs/2204.04676
[7] BSRGAN: Kai Zhang, et al., Designing a Practical Degradation Model for Deep Blind Image Super-Resolution, CVPR2021
[8] Real-ESRGAN: Xintao Wang, et al., Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data, ICCVW2021
[9] RealBasicVSR: Kelvin C.K. Chan, et al., Investigating Tradeoffs in Real-World Video Super-Resolution, CVPR2022
[10] ESRGAN: Xintao Wang, et al., ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks, ECCVW2018
[11] ESRGAN: Xintao Wang, et al., ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks, ECCVW2018
[12] UNet: Olaf Ronneberger, et al., U-Net: Convolutional Networks for Biomedical Image Segmentation, MICCAI2015
[13] RepSR: Xintao Wang, et al., RepSR: Training Efficient VGG-style Super-Resolution Networks with Structural Re-Parameterization and Batch Normalization, https://arxiv.org/abs/2205.05671
[14] LDL:Jie Liang, et al., Details or Artifacts: A Locally Discriminative Learning Approach to Realistic Image Super-Resolution, CVPR2022
[15] USM:https://en.wikipedia.org/wiki/Unsharp_masking