阿里云 RTC QoS 弱网对抗之变分辨率编码

简介: 本文为 QoS 弱网优化系列的第二篇

作者|安基程、田伟峰

审校| 泰一

视频编码中的变分辨率问题及解决


变分辨率在弱网场景的实际应用中非常常见,网络状况不好的时候降低分辨率可以降低码率,减少块效应,网络好的时候增加分辨率可以提升清晰度及主观体验。


目前主流的视频编码标准,比如 H.264、H.265,在编码过程中如果要进行分辨率切换,则必须要先编码一个 I 帧,而 I 帧只能使用帧内预测,编码效率低下。这在弱网变分辨率的时候就容易造成卡顿。下图中展示了每秒钟切换分辨率的码率波动效果,高低两个分辨率,每秒钟切换一次。image.png

上图中横坐标表示编码的帧数,纵坐标表示每帧的大小,图中最高的 4 个尖峰表示从低分辨率切换到高分辨率时编的 I 帧,在这 4 个尖峰中间的较低尖峰是从高分辨率切换到低分辨率编码的 I 帧。可见编码 I 帧带来的码率波动还是非常明显的,这在弱网下就很有可能造成如下图所示的卡顿。

视频中左一的男士在伸手刚接到左三女士递出的传单之时进入弱网,切换分辨率,产生了卡顿。


新一代的压缩标准,如 VP9、AV1、VVC/H.266 等都支持在做帧间预测的时候当前帧和其参考帧使用不同的分辨率,其基本思想是对参考帧做重采样 (re-sampling) 以使得其和当前帧的分辨率匹配,从而进行帧间预测,以实现分辨率切换的时候不用编 I 帧的目的。


阿里云 RTC codec 的变分辨率编码 (resolution change coding, 以下简称 RCC) 也使用和上述标准类似的基本思想,通过参考帧重采样等手段使得之前已编码的其他分辨率的参考帧也能为当前帧所用,维持帧间的参考链不断,充分利用帧间信息冗余提升压缩效率,省去编码效率低下的 I 帧。

Codec level 压缩性能测试


本文对阿里云 RTC codec 的 RCC 特性进行测试,使用 6 个视频会议序列(背景不动,运动幅度较小),和 5 个运动程度较大的序列,高低两个分辨率,一秒钟切换一次,只评价分辨率切换帧的码率和视频质量,因为对于后续的帧,使用 RCC 与否,编码方式并没有变化。


对于视频会议序列,相同视频质量下码率有 70% 节省,对于运动序列,相同视频质量下码率有 58% 的节省,因为视频内容越静止不动,帧间编码的比例越高,则 RCC 的优势越明显,所以视频会议序列 RCC 的增益比运动序列要高,是合理的。


下图展示了一个测试序列使用 RCC 后码率波动的变化,蓝线表示的是未加 RCC 的码率波动,红线表示的是加了 RCC 之后的码率波动,可以看到使用 RCC 后分辨率切换处的编码 I 帧码率尖峰明显没有了,码率更加平稳,而且视频质量 PSNR 也有所提升。image.gif

image.png

蓝线中分辨率切换处的 I 帧平均码率为 840kbps, PSNR=33.5db, 39.7db, 40.6db for Y, U, V 三个分量;而红线中分辨率切换帧的平均码率为 360kbps, PSNR=36.3db, 40.9db, 42.0db for Y, U, V 三个分量。


即开了 RCC 之后,分辨率切换时的 I 帧码率降低了近 60%,同时亮度的 PSNR 提升了近 3 个 db。

RTC level 效果


除了前述的单纯 codec level 变分辨率不编 I 帧带来的一帧的压缩性能提升之外,RCC 在和 LTR (Long Term Reference) 结合后会进一步降低弱网下频繁请求 I 帧的可能性。


LTR 抗弱网的原理在上一篇分享《阿里云 RTC QoS 屏幕共享弱网优化之若干编码器相关优化》中已有所介绍,在此结合 RCC 会进一步提升其抗弱网效果,原理如下:

1. 没有 LTR 时,在弱网场景下如果丢包或卡顿无法恢复,则会请求 I 帧;

2. 增加了 LTR 之后,则不会请求 I 帧,而是会请求 LTR 帧恢复,编码效率提升很多;

3. 如果是弱网下发生了分辨率切换,没有 RCC 的情况下,由于必须编码 IDR 帧,所以 LTR 被清空,如果此 I 帧太大,导致接收端收不到,则其会再次请求 I 帧,陷入一个恶性循环中。

4. 如果开了 RCC ,不仅分辨率切换帧本帧不会编码 I 帧,其他的参考帧管理也和之前一样,LTR 也不会被清空,分辨率切换帧本帧的大小比 I 帧减少了很多,接收端收不到的概率大大降低,即使收不到,也可以请求 LTR 恢复,而不是 I 帧恢复。


本文在 RTC level 模拟弱网场景,使其一秒钟切换一次分辨率,下面两图分别是未加 RCC 和 加了 RCC 之后的效果,可以看到未加 RCC 的画面在分辨率切换时会有明显的卡顿以及编 I 帧造成的 flicker 效应,而加了 RCC 的则会很流畅,画面也没有 flicker 效应。image.gif

图片1.gif

上图是未加 RCC,一秒钟切换一次分辨率的效果,有多次明显的小卡顿,且画面有频繁 I 帧造成的 flicker 效应。image.gif

图片2.gif

上图是加了 RCC,一秒钟切换一次分辨率的效果,整体比较流畅,感觉不到卡顿,视频质量也比较平稳,没有 flicker 效应。


「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。

image.png

相关文章
|
6月前
|
Python
在广播系统工程中,这通常涉及到音频信号的生成、处理、传输和播放等多个环节。
在广播系统工程中,这通常涉及到音频信号的生成、处理、传输和播放等多个环节。
|
Web App开发 编解码 算法
浅谈语音质量保障:如何测试 RTC 中的音频质量?
日常音视频开会中我们或多或少会遭遇这些场景:“喂喂喂,可以听到我说话吗?我听你的声音断断续续的”,“咦,我怎么可以听到回声?”,“太吵啦,我听不清楚你在说啥” 等等。这些语音质量问题影响音视频开会体验,如若是重要的会议,那足够让人 “恼羞成怒”。那么如何有效的减少这些问题发生呢?本系列文章就将为大家分享阿里云视频云在保障 RTC 语音质量方面的测试经验。
浅谈语音质量保障:如何测试 RTC 中的音频质量?
|
编解码 C++
基于Live555实现RtspServer及高清高分辨率和高码率视频传输优化
基于Live555实现RtspServer及高清高分辨率和高码率视频传输优化
535 0
|
机器学习/深度学习 搜索推荐 算法
INTERSPEECH 2022论文解读|全双工通话中的个性化声学回声消除
INTERSPEECH 是由国际语音通讯协会 (International Speech Communication Association, ISCA) 创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍一种全双工通话中的个性化回声消除方法。该论文已被 INTERSPEECH 2022 接收。
497 0
|
编解码 网络性能优化 芯片
阿里云 RTC QoS 弱网对抗之 LTR 及其硬件解码支持
LTR 弱网对抗由于需要解码器的反馈,因此用硬件解码器实现时需要做一些特殊处理。另外,一些硬件解码器对 LTR 的实现不是特别完善,会导致出现解码错误。本文为 QoS 弱网优化系列的第三篇,将为您详解阿里云 RTC QoS 策略中的 LTR 抗弱网原理与实现硬解 LTR 时遇到的坑及其相应解法。
阿里云 RTC QoS 弱网对抗之 LTR 及其硬件解码支持
|
机器学习/深度学习 人工智能 编解码
|
人工智能 自然语言处理 算法
【技术揭秘】可控时延语音识别文本后处理技术
自动语音识别 (ASR) 原始输出的文本不含标点,且口语的ASR识别结果通常包含大量不顺滑的短语。随着自动语音识别(ASR)技术的广泛应用,以标点预测和顺滑检测为代表的语音识别文本后处理技术越来越受到重视。文本后处理技术能提升语音识别输出文字的可读性。此外,ASR的下游文本处理应用,包括机器翻译、对话系统等等,通常开发在顺滑和含有标点的规范文本上。因此,文本后处理技术还能提升下游任务的性能。本文将揭秘阿里语音AI原创的可控时延后处理模型CT-Transformer。
【技术揭秘】可控时延语音识别文本后处理技术
|
编解码 算法 数据可视化
实现视频和音频的零延迟是标准的零和博弈
作为实时音视频行业,我们对为什么不能零延迟推送视频提出很多理由,其中主要集中在网络容量或间歇性,扩展低延迟解决方案的成本,甚至局限性的现成处理器实时处理4K Ultra HD或高动态范围(HDR)内容方面。本文将从根本上分析涉及编解码器本身以及围绕可伸缩流视频出现的打包和分段问题。 
461 0
实现视频和音频的零延迟是标准的零和博弈
|
机器学习/深度学习 存储 编解码
基于内容的自适应视频传输算法及其应用
本文内容来自LiveVideoStack线上分享第四季第二期,由湖北经济学院副教授,胡胜红博士为大家介绍如何基于内容分析技术,从用户需求角度标注视频流重要性级别,构建自适应流传输策略,实现语义级QoE优化目标。
628 0
基于内容的自适应视频传输算法及其应用
|
编解码 网络性能优化
阿里云 RTC QoS 屏幕共享弱网优化之若干编码器相关优化
屏幕共享是视频会议中使用频率最高的功能之一,但在实际场景中用户所处网络环境复杂,常遇到丢包或者拥塞的情况,所以如何优化弱网环境下的用户体验也成为了音视频通信中重要的一环。本文主要分享阿里云 RTC QoS 如何通过若干编码器相关优化提升弱网环境下的屏幕共享体验。

热门文章

最新文章

下一篇
开通oss服务