超越感官,沉浸赛场——大型体育赛事云上实战精选-第二章 NBA 总决赛:窄带高清的视觉渲染力 NBA赛事超清画质的背后:「窄带高清2.0」技术深度解读(下)

简介: 超越感官,沉浸赛场——大型体育赛事云上实战精选-第二章 NBA 总决赛:窄带高清的视觉渲染力 NBA赛事超清画质的背后:「窄带高清2.0」技术深度解读


 

ROI

 

前面所述的JND算法通过对视觉冗余的挖掘能节省30%以上的码率,但这种码率节省是完全基于low level统计信息来获得的,并没有考虑high level语义信息。

 

针对体育赛事场景中观众们很关注的人物近景特写镜头,我们希望能够让人物特写更清晰地呈现在观众面前。除了通过极致修复生成获得清晰人物特写外,还要通过某种方法使得编码后仍然保持清晰。在此,需要用到我们自研的ROI编码技术

 

ROIRegion Of Interest编码是一项基于感兴趣区域的视频编码技术,简单来说就是给图像中感兴趣区域分配更多码率已提升画质,对其他不感兴趣区域分配较少码率,可实现总体码率基本不变的情况下提升视频整体观看体验

 

ROI编码的主要难点在于:

 

要有成本足够低速度足够快的ROI算法,以满足高分辨率高帧率体育赛事直播要求

 

如何基于ROI进行码控决策,使得ROI区域主观质量提升,非ROI区域主观不下降,同时保持时域连续不闪烁。

 

在低成本ROI计算方面,我们自研了自适应决策的人物检测跟踪算法即大部分时间只需要做计算量极小的人物跟踪,只有少部分时间需要做人物检测,从而实现超低成本和快速ROI获取,同时保持很高的精度

 

image.png

 

在码控决策上,一方面与编码器结合,在主观和客观之间取得均衡,保持时域一致;另一方面与JND结合,在ROI和非ROI之间取得主观均衡,从而实现场景、质量自适应的码率分配。

 

image.png

ROI算法流程

 

3) 编码内核

 

针对体育赛事直播场景,在视频编码内核方面,我们做了主观快划分优化和块效应优化,以提升压缩后视频的主观清晰度,降低块效应,从而提升整体观看体验。

 

主观块划分

 

编码器的块划分模式决策是根据最佳率失真模型RDORate Distortion Optimization,率失真优化来决策:

image.png

其中D表示失真,R表示编码当前模式所需的bit数。

 

在块划分决策时,有时会出现最终决策为大块,但从主观上看划分为小块的结果更好的情况。这是因为大块模式虽然失真D更大,但R更小,导致编码器最终决策为大块划分。

 

针对这种情况,我们修改了不同块划分模式的失真表达式,针对不同大小的块增加不同的权重系数,使得最终划分的结果与主观更一致。

 

image.png

优化前 优化后

 

image.png

优化前块划分 优化后块划分

 

块效应优化

 

视频编码的率失真理论与人眼感受比较贴切,按照率失真理论构建的编码器也是对人眼主观质量的优化,唯一的问题在块效应,因为人眼会放大直线,对块效应很敏感。

 

我们观察到,在基于客观的RDORate Distortion Optimization,率失真优化,编码部分模式会放大块效应,而265协议中的deblock在该场景失效。同时我们发现在平坦区域场景,模糊加噪声的效果要优于清晰块效应。

 

基于以上观察,我们采用了如下块效应优化策略以尽量减少块效应,提升观看体验。

 

image.png

块效应优化算法流程

 

下图是我们做块效应优化前后的对比图。可以看出,右边做了优化的结果中块效应明显降低。

 

image.png

优化前 优化后

 

4) 视频效果展示

 

通过前述视频处理、码率分配优化和编码内核优化,最终实现画质极致修复和1080p下50fps直播转码,为观众提供流畅、稳定和高清的观看体验。

 

image.png

点击这里查看视频左为源流效果,右为修复后效果

 

由此可见,通过与百视TV的NBA赛事合作,充分体现了“窄带高清2.0”技术在篮球赛事直播中对视觉体验提升的重要价值,其带来同等画质下更省流、同等带宽下更高清的商业意义与观看体感平衡。

 

未来,窄带高清技术也将持续升级,通过算法能力进一步提升修复生成效果、降低码率和优化成本。与此同时,该项技术也将应用于更多的顶级赛事活动,在成本优化调和之上,实现视效体验的全新升级。

 

 

发布时间:2022年6月29日

作者:明烁、孟婆

 

 

 

 

参考文献:

 

[1] ARCNN:Chao Dong, et al., Compression Artifacts Reduction by a Deep Convolutional Network, ICCV2015

 

[2] MFQE:Ren Yang, et al., Multi-Frame Quality Enhancement for Compressed Video, CVPR2018

 

[3] DeepDeblur:Seungjun Nah, et al., Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring, CVPR2017

 

[4] FBCNN:Towards Flexible Blind JPEG Artifacts Removal, ICCV2021

 

[5] STDF:Jianing Deng, et al., Spatio-Temporal Deformable Convolution for Compressed Video Quality Enhancement, AAAI2020

 

[6] NAFNet:Liangyu Chen, et al., Simple Baselines for Image Restoration,https://arxiv.org/abs/2204.04676

 

[7] BSRGAN: Kai Zhang, et al., Designing a Practical Degradation Model for Deep Blind Image Super-Resolution, CVPR2021

 

[8] Real-ESRGAN: Xintao Wang, et al., Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data, ICCVW2021

 

[9] RealBasicVSR: Kelvin C.K. Chan, et al., Investigating Tradeoffs in Real-World Video Super-Resolution, CVPR2022

 

[10] ESRGAN: Xintao Wang, et al., ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks, ECCVW2018

 

[11] ESRGAN: Xintao Wang, et al., ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks, ECCVW2018

 

[12] UNet: Olaf Ronneberger, et al., U-Net: Convolutional Networks for Biomedical Image Segmentation, MICCAI2015

 

[13] RepSR: Xintao Wang, et al., RepSR: Training Efficient VGG-style Super-Resolution Networks with Structural Re-Parameterization and Batch Normalization, https://arxiv.org/abs/2205.05671

 

[14] LDL:Jie Liang, et al., Details or Artifacts: A Locally Discriminative Learning Approach to Realistic Image Super-Resolution, CVPR2022

 

[15] USM:https://en.wikipedia.org/wiki/Unsharp_masking

 

目录
打赏
0
0
0
0
372
分享
相关文章
超越感官,沉浸赛场——大型体育赛事云上实战精选-第二章 NBA 总决赛:窄带高清的视觉渲染力 NBA赛事超清画质的背后:「窄带高清2.0」技术深度解读(中)
超越感官,沉浸赛场——大型体育赛事云上实战精选-第二章 NBA 总决赛:窄带高清的视觉渲染力 NBA赛事超清画质的背后:「窄带高清2.0」技术深度解读
339 0
【开源视频联动物联网平台】视频AI智能分析部署方式
【开源视频联动物联网平台】视频AI智能分析部署方式
532 3
将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读
结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。
17556 0
将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读
视频云肖长杰:视频AI科技助力短视频生态
人工智能技术是当今炙手可热的技术领域,它在制造、家居、零售、交通、安防等行业的应用已经是大势所趋。在本月云栖Techday音视频技术沙龙中,阿里云视频云产品专家肖长杰为我们分享了一些AI技术在视频中应用的小趋势,带大家回顾了AI是如何渗透到了短视频生产中的各个环节中的。
2965 0
视频AI对话杭州云栖:新一代视频智能生产的探索与实践
在今年的杭州云栖大会AB区中庭,有一个全透明建筑备受瞩目,这就是云栖数据指挥中心。在这块大屏中的媒体中央厨房部分,正是采用了视频智能生产方案,将多模态内容理解与云导播和云剪辑相结合,使原来小时级别的视频生产降至秒级。
4217 0
视频AI对话杭州云栖:新一代视频智能生产的探索与实践
阿里云视频技术专家柿蒂:视频AI in传媒九大业务场景解析
人工智能视觉计算和视频融合在一起能摩擦出怎样的火花呢?柿蒂提到,如同下图所示,人工智能视觉计算可以支持直播、短视频、新闻、体育、影视等多种业务场景,可以实现目标检测识别识、片段侦测、事件识别、鉴黄涉恐、OCR等多种应用层面的功能。
7167 0
小滑块上个斜面,难倒多少高中生?现在,AI让它动起来了
《Augmented Physics:基于机器学习的物理学习工具》 高中物理学习中,小滑块上斜面等问题常让学生困惑。Augmented Physics利用AI技术,将静态物理图示转化为交互式模拟,通过增强实验、动画图示、双向操作和参数可视化等技术,帮助学生直观理解物理概念。研究表明,该工具能有效提升学生对物理概念的理解,具备广阔的应用前景。
162 1
AI浪潮下,大模型如何在音视频领域运用与实践
LiveVideoStackCon2023深圳站,分享阿里云视频云的大模型算法实践
419 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问