干掉大小流切换 I 帧!阿里云 RTC QoS 及视频编码联合优化之切流编码

简介: 阿里云 RTC 独创 「SSC 技术」

如果要在两条分辨率不同的视频流之间切换,尽管这两条流的画面内容基本一样,但是由于两条流的参考帧不同,分辨率不同,目前所有的视频编码标准都无法做到利用帧间预测编码得到编解码匹配的结果,而帧内预测编码即I帧的压缩效率是非常低下的,因此在切流处很容易造成视频质量下降或由于码率突增引起的卡顿;阿里云RTC codec 在前代标准的基础之上通过独创的切流编码技术和网络层QoS体系的紧密配合可以做到在此种场景下仍然利用帧间预测编码P帧且编解码匹配,相比于I帧显著提升压缩效率,提升视觉体验。


作者|安基程、田伟峰

审校|泰一


1. 背景介绍

一条视频流,如果中途改变分辨率,对于目前主流的 H.264/AVC, H.265/HEVC 标准来说,必须要编码 I 帧,即只能利用帧内信息冗余,如图 1(左)所示;新一代的编码标准如 AV1,H.266/VVC 等可以做到利用帧间信息冗余,不编 I 帧,以提升压缩效率,基本原理是通过对参考帧进行缩放,使得参考帧和当前帧的分辨率一致,如图 1(右)所示,阿里云 RTC codec 的变分辨率编码(Resolution Change Coding,以下简称 RCC)技术也具备该能力,详情请参考我们之前的分享:《阿里云 RTC QoS 弱网对抗之变分辨率编码》


本文将要介绍的切流编码(Stream Switch Coding,以下简称 SSC)技术是对 RCC 技术的升级。


image.png

图 1. 变分辨率示意图(左:传统插入 I 帧方式;右:参考帧缩放技术)


H.264/AVC 标准的 SP slice 技术可以用于切换两条分辨率一样的视频流,但是对于切换两条分辨率不同的视频流则无能为力。


AV1标准的S frame 虽然可以用于从高分辨率的流切换到低分辨率的流,但是其会造成编解码不匹配,有误差传播风险。


2. 切流场景简介

image.png

图 2. 多流场景示意图


图 2 展示了多流场景,一个 publisher 上有两个 encoder: Enc0, Enc1, 分别发送大分辨率的流和小分辨率的流 (以下简称大流和小流),两路流的画面内容是一样的,只是分辨率,码率不同,所以清晰度不同,subscriber 可以根据自己网络状况等选择订阅不同的流,比如网络好的时候就收大流,网络差的时候收小流,图 2 中共有 6 个 subscriber 也即 6 个 decoder,其中 Dec0, Dec1, Dec2 接收的是大流,Dec3, Dec4, Dec5 接收的是小流。


image.png

图 3. 常规切流示意图


图 3 展示了发生切流时的变化,其中 Dec3 刚开始收的是小流,后面由于某种原因(如网络变好)切换到了大流,则 Enc0 必须要发送一个 I 帧来实现切流,此 I 帧会影响到所有接收大流的 subscriber (如图中的 Dec0, Dec1, Dec2,实际情况中可能会有更多的订阅者),造成切流瞬间的编码质量下降或码率突增。图中绿色箭头代表了 Dec3 接收的帧。但是如果直接将 Enc0 的 P 帧送给 Dec3, 肯定也是不行的,因为两条流的参考帧不一样,分辨率也不一样,必然造成解码错误(编解码不匹配),正是由于这些困难,目前所有的视频编码标准都未能解决这个痛点。然而阿里云 RTC Codec 通过独创的 SSC 技术可以做到在两条分辨率不同的流之间进行切换时也能够利用帧间信息冗余不编 I 帧,提升压缩效率。


image.png

图 4. 本文 SSC 技术切流示意图


图 4 展示了利用 SSC 技术进行切流,同样是 Dec3 从小流切换到大流,在切流时 Enc0 编码了一个 PDS 帧,Enc1 编码了一个 PSS 帧,图中的绿色箭头表示了 Dec3 接收的帧,其通过接收一个 PSS 帧实现了切流。PDS 帧本文称之为目标流切换帧(P frame for Destination-stream Switch),PSS 帧本文称之为源流切换帧(P frame for Source-stream Switch),Dec0, 1, 2 和之前相比,接收的 I 帧变成了 PDS 帧,Dec3 接收的 I 帧变成了 PSS 帧,PDS 帧和 PSS 帧都利用了帧间信息冗余进行编码,因此压缩效率相对于 I 帧有显著提升。


3. 测试结果

PDS 帧压缩性能测试

本文通过测试一个视频会议序列 FourPeople 来比较 I 帧,P 帧,和 PDS 帧的压缩性能。将该序列分别压缩为全 I 帧,全 P 帧(除了第一帧为 I 帧),和全 PDS 帧(除了第一帧为 I 帧)。图 5 展示了压缩结果,横坐标为码率,纵坐标为 PSNR,精确计算 BD-rate 显示,同等质量下,P 帧可以比 I 帧节省 93% 码率,PDS 帧在具备 I 帧的切流能力的同时可以比 I 帧节省 66% 码率。


image.png

图 5. PDS 帧压缩性能展示


本测试直接说明如果将一个序列每帧都编码为 I 帧,则其每帧都具备切流能力,但是损失了压缩性能,如果都编码为 P 帧,虽然可以比 I 帧节省 93% 码率,但是完全不具备切流能力,如果都编码为 PDS 帧,则可以在保留 I 帧切流能力的同时,比 I 帧节省 66% 码率。


实际场景中一般不会每帧都出现切流的情况,本测试表明在切流处,目标流利用 PDS 帧可以比 I 帧节省 66% 码率。


PSS 帧压缩性能测试

由于 PSS 帧涉及到分辨率的切换,用传统(如 H.264, H.265 标准)的 P 帧已无法编码,所以本文只比较了 I 帧和 PSS 帧的压缩性能。本文使用了一个大小分辨率帧交错的视频会议序列来测试,即偶数帧为大分辨率,奇数帧为小分辨率,分别编码全 I 帧,和全 PSS 帧(除了第一帧为 I 帧)。同等质量下,PSS 帧比 I 帧可以节省 29% 码率。

image.png

图 6. 常规连续切流示例


image.png

图 7. 本文 SSC 技术连续切流示例


本测试直接表明的是一个不断切流的场景,如图 6 所示,Dec3 不断的在大小流之间切换,图 6 展示的是用原有编码 I 帧的切流方式,则 Dec3 收到的全是 I 帧,图 7 展示的是用本文的 SSC 技术的切流方式,Dec3 收到的则全是 PSS 帧,本测试说明在这种情况下 PSS 帧可以比 I 帧节省 29% 码率,率失真曲线如图 8 所示。


image.png

图 8. PSS 帧压缩性能展示


实际场景中一般不会出现一直切流的情况,本测试表明在切流处,源流利用 PSS 帧可以比 I 帧节省 29% 码率。


综上,利用本文展示的阿里云 RTC 独创的 SSC 技术,在切流处,目标流可以比 I 帧节省 66% 码率,源流可以比 I 帧节省 29% 码率。


「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云技术交流群,和作者一起探讨音视频技术,获取更多行业最新信息。

image.png

相关文章
|
编解码 网络协议 安全
一文看懂音视频流媒体协议及信令技术
音视频通信完整流程有如下几个环节:采集、编码、前后处理、传输、解码、缓冲、渲染等。 每一个细分环节,还有更细分的技术模块。比如,前后处理环节有美颜、滤镜、回声消除、噪声抑制等,采集有麦克风阵列等,编解码有H.263,H.264、H.265等,传输就涉及到了本文重点介绍的RTSP/RTMP/RTP/RTCP等流媒体协议以及相关的信令技术。
一文看懂音视频流媒体协议及信令技术
|
编解码 前端开发 Android开发
如何在Android平台GB28181接入终端实现语音广播和语音对讲
在之前的blog,我们以Android平台国标接入终端为例,分别介绍了一些常规的功能,比如REGISTER、CATALOG、INVITE、Keepalive、SUBSCRIBE、NOTIFY等常规操作,今天主要介绍下语音广播和语音对讲这部分。
598 0
|
C++
38.【C++ 虚函数 纯虚函数 虚基类 (最全详解)】(一)
38.【C++ 虚函数 纯虚函数 虚基类 (最全详解)】
245 0
|
存储 安全 数据库
阿里云服务器计算型、通用型、内存型主要实例规格性能特点和适用场景汇总
阿里云服务器ECS计算型、通用型、内存型规格族属于独享型云服务器,在高负载不会出现计算资源争夺现象,因为每一个vCPU都对应一个Intel ® Xeon ®处理器核心的超线程,具有性能稳定且资源独享的特点。本文为大家整理汇总了阿里云服务器ECS计算型、通用型、内存型主要实例规格族具体实例规格有哪些,各个实例规格的性能特点和主要适用场景。
阿里云服务器计算型、通用型、内存型主要实例规格性能特点和适用场景汇总
|
5月前
|
缓存 Java API
Spring WebFlux 2025 实操指南详解高性能非阻塞 API 开发全流程核心技巧
本指南基于Spring WebFlux 2025最新技术栈,详解如何构建高性能非阻塞API。涵盖环境搭建、响应式数据访问、注解与函数式两种API开发模式、响应式客户端使用、测试方法及性能优化技巧,助你掌握Spring WebFlux全流程开发核心实践。
1065 0
|
人工智能 自然语言处理
业界首家!阿里云智能媒体服务,卓越级通过中国信通院大模型媒体处理评估
阿里云智能媒体服务作为业界首家获得中国信通院“卓越级”通过。
424 5
业界首家!阿里云智能媒体服务,卓越级通过中国信通院大模型媒体处理评估
|
存储 人机交互 语音技术
基于RT-Thread的智能家居助手
一、项目简介 智能家居助手主要基于RT-Thread开发的,该系统主要分为语音子系统,环境监测子系统,智能控制子系统,智能网关子系统,音乐播放器,云端以及应用软件七大部分。语音子系统可通过语音进行人机交互来控制家电设备。环境监测子系统为智能家居提供环境信息输入,实时监测室内的环境信息。智能控制子系统为智能家居提供控制接口,用户可根据实际需求来控制家电设备。 智能网关是整个系统的核心和枢纽,为整个智能家居提供网络,同时与云平台进行交互,不断更新室内信息,实时将数据上传至云端,用户就能在远程进行查室内的各种环境信息,实时掌握家中的最新动态。音乐播放器为用户提供音乐服务。云端部分为智能家居系统云
346 6
|
弹性计算 关系型数据库 数据库
阿里云史上最大力度降价:2024年阿里云服务器降价后租用费用明细报价表整理
2024年阿里云年度首次官方降价,百款产品直降,平均降幅20%,最高降幅55%,阿里云希望通过此次大规模降价,让更多企业和开发者用上先进的公共云服务,加速云计算在中国各行各业的普及和发展。阿里云将下调部署在中国大陆地域的部分公共云产品(行业云不在本次价格调整范围内):包括云服务器ECS、云数据库RDS(MySQL、PostgreSQL、MariaDB)、云数据库Redis社区版、云数据库MongoDB、云数据库ClickHouse社区兼容版的特定规格包年/多年官网折扣价、节省计划(云服务器大陆地域ECS计算型节省计划、RDS MySQL全地域节省计划),以及对象存储服务 OSS 按量付费、预留
560 0
|
Android开发
Android仿高德首页三段式滑动
Android仿高德首页三段式滑动
417 0
|
5G UED
5G NR中的寻呼过程
【8月更文挑战第31天】
494 1