【H.264/AVC视频编解码技术详解】十八:算术编码的基本原理与实现

简介:

《H.264/AVC视频编解码技术详解》视频教程已经在“CSDN学院”上线,视频中详述了H.264的背景、标准协议和实现,并通过一个实战工程的形式对H.264的标准进行解析和实现,欢迎观看!

“纸上得来终觉浅,绝知此事要躬行”,只有自己按照标准文档以代码的形式操作一遍,才能对视频压缩编码标准的思想和方法有足够深刻的理解和体会!

链接地址:H.264/AVC视频编解码技术详解

GitHub代码地址:点击这里

一、H.264的算术编码

在前述的几章节的博文/视频中,我们已经了解到熵编码是利用信息的统计冗余进行数据压缩的无损编码方法,并且已经讨论过了熵编码的基本原理、H.264中使用的语法元素解析算法“指数哥伦布编码”的算法与实践:

并且在后续的内容中,讨论了在H.264中非常重要的一种熵编码方法,即上下文自适应的变长编码(CAVLC):

以上的内容在H.264的baseline profile中具有广泛应用。然而在实际应用场景中更为流行的通常是main profile,在main profile中为了进一步提升压缩比率,采用的熵编码方法不是CAVLC,而是压缩效率更高的CABAC。

CABAC的全称为上下文自适应的二进制算术编码(Context-Adaptive Binary Arithmetic Coding, CABAC),是一种经过特殊设计的算术编码,其具体步骤主要有:

  1. 设定编码上下文;
  2. 语法元素的二值化;
  3. 算术编码;

二、算术编码的基本概念

算术编码属于熵编码的一种重要的类型,其作用同变长编码等熵编码方法类似,用于压缩输入数据中的统计冗余,并且使用算术编码的压缩同样是无损压缩。

在本系列第1篇中讨论了典型的变长编码方法——哈夫曼编码。包括哈夫曼编码在内的变长编码具有一个共同特点,就是针对每一个码元不同的概率,分配每个码元对应的码字。通常针对概率更高的码元,分配长度更短的码字;针对概率较低的码元,分配长度较长的码字。通过这种不同长度码字的分配使得整体输入信息的平均码字长度小于定长编码,达到数据压缩的效果。

另一方面,由于采用这种变长度的编码方法,变长编码存在一项难以突破的性能瓶颈:即使是某一个输入信源的概率再高,也至少需要1个bit的码字。这种特性限制了编码性能进一步向信源熵逼近,也导致了无法进一步提升整体的压缩性能。

算术编码的引入可以有效解决这个问题。算术编码的思想同变长编码完全不同,算术编码无法针对每一个输入码元准确细分出对应的码字。另外,变长编码可以针对短输入信息进行编码,而算术编码对类似一两个码元的输入信息通常没有任何意义,因为生成的码流长度通常更长。

在算术编码执行的过程中,始终需要两个区间来计算,这两个区间即信源的概率区间和码流的编码区间。

三、概率区间与编码区间

信源的概率区间用于表示输入信源的码元之间的概率关系。假设输入的信源为二进制信源,只存在0和1两个元素,那么元素0和1的概率之和为100%。如果0和1的概率比为7:3,那么概率区间可以用下图表示:

与概率区间按照码元的概率分割不同,编码区间为了标记输出码流,将自身区间递归二等分,分割点的左右分别表示一个码元0和1。每一次分割都增加一个bit输出。编码区间可以用下图表示:

四、一个简单的算术编码执行过程

在一次算术编码的执行前,为简便起见,首先假设输入的信源为0/1的二进制信源,0和1的概率比为7:3。即二者的概率为:

p(0) = 0.7;
p(1) = 0.3;

假设输入的待编码信息为[0, 0, 1],在编码每一个符号时,都需要对概率区间进行分割,并通过与编码区间进行比较,判断是否输出码流的bit位,以及更新编码下一个符号的上下文。

在第一次进行分割之后,概率区间和编码区间的关系如下图所示:

第一个字符的概率区间分割之后,不满足输出码流的条件,因此结束这个字符的编码,准备开始编码下一个字符。

第二个字符依然为0,此时概率区间和编码区间的关系为:

此时概率区间已经完全处于编码区间的下半区,因此应输出一个bit-0。而后,编码区间的下半区间扩展2倍到原有的完整编码区间继续进行下一个编码。该过程由下图所示:

我们设定的最后一个待编码符号为1,因此最后一次分割概率区间,选取上30%作为结果。此时的概率区间分割结果如下图所示:

由图中可看出,概率区间已经完全处于编码区间的上半区,因此需要输出一个bit-1,并循环进行如下操作,直到概率区间长度大于编码区间总长的一半:

  1. 检测概率区间的长度和位置;
  2. 根据概率区间特性,输出0或1,或记录待输出位;
  3. 概率区间随编码区间归一化。

当循环结束后,对每一个码元编码的区间分割过程结束。

对码元的区间分割结束后,整个编码过程并未完全结束,还需要一个重要的收尾过程,即处理最终的概率区间。最终的概率区间的处理方法为:

  1. 检查最终概率区间下限的位置;
  2. 若该下限位置小于整体编码区间的1/4分割点,输出bit-0,否则输出bit-1。

还需要注意的是,我们的算术编码引擎中包含了一个待输出编码位,表示此时应有一个输出bit但由于概率区间位置跨越了编码区间的中点而没有输出,需要留待以后输出。因此无论在分割中或者收尾时输出某个bit时,应同时输出数目为待输出编码位个的相反bit。

例如,当前待输出编码位为3个,某时刻应输出1,则此时应输出1000;又例如,待输出编码位为2,某时刻应输出0,则此时应输出011。

对于程序实现,请到Github代码库下载查看;CSDN学院中的视频更可以详细解释每一步的细节,以及多个案例的运行,并通过程序运行与图形化解释来揭秘算术编码的本质含义,欢迎参加。

目录
相关文章
|
Ubuntu Windows
Ubuntu 20.04.2 LTS安装 最新版 微信(wine)
Ubuntu 20.04.2 LTS安装 最新版 微信(wine)
3819 0
Ubuntu 20.04.2 LTS安装 最新版 微信(wine)
|
Kubernetes 测试技术 应用服务中间件
k8s七层代理Ingress-nginx基于cookie、请求头、权重实现灰度发布
k8s七层代理Ingress-nginx基于cookie、请求头、权重实现灰度发布
|
7月前
|
JSON API 开发者
深度分析微店API接口,用Python脚本实现
微店作为知名移动端电商平台,其开放平台提供丰富的API接口,支持商品、订单、客户及营销管理。本文分析其API核心特性,并提供Python调用示例,助力开发者快速集成业务功能。
|
负载均衡 容灾 网络协议
《云上容灾交付服务白皮书》——2.容灾技术架构——21容灾技术架构简介(上)
《云上容灾交付服务白皮书》——2.容灾技术架构——21容灾技术架构简介(上)
996 0
|
人工智能 计算机视觉
MangaNinja:开源线稿着色工具,自动匹配图像风格,一键快速上色
MangaNinja 是一款基于参考图像的线稿着色工具,通过创新的补丁重排模块和点驱动控制方案,实现精准颜色匹配和复杂场景处理,适用于漫画、插画和数字艺术创作。
663 10
MangaNinja:开源线稿着色工具,自动匹配图像风格,一键快速上色
|
Python
pythonSpider_urllib获取豆瓣电影top250信息写入excel
pythonSpider_urllib获取豆瓣电影top250信息写入excel
352 0
|
人工智能 算法 搜索推荐
阿里云百炼xWaytoAGI共学课开课:手把手学AI,大咖带你从零搭建AI应用
阿里云百炼xWaytoAGI共学课开课啦。大咖带你从零搭建AI应用,玩转阿里云百炼大模型平台。3天课程,涵盖企业级文本知识库案例、多模态交互应用实操等,适合有开发经验的企业或独立开发者。直播时间:2025年1月7日-9日 20:00,地点:阿里云/WaytoAGI微信视频号。参与课程可赢取定制保温杯、雨伞及磁吸充电宝等奖品。欢迎加入钉钉共学群(群号:101765012406),与百万开发者共学、共享、共实践!
1384 10
|
存储 程序员 Shell
【C/C++ 基本语法 结构体】C++ 结构体声明(定义)以及不同写法的差异
【C/C++ 基本语法 结构体】C++ 结构体声明(定义)以及不同写法的差异
567 1
|
C++ 计算机视觉 Python
【Py调用C++】使用使用python调用C++生成dll处理图像(OPENCV)
【Py调用C++】使用使用python调用C++生成dll处理图像(OPENCV)
886 0
【Py调用C++】使用使用python调用C++生成dll处理图像(OPENCV)
|
存储 编解码 算法
探索FFmpeg复用:深入理解媒体数据的组织与封装(一)
探索FFmpeg复用:深入理解媒体数据的组织与封装
477 0