视频编码标准简介(上)| 学习笔记

简介: 快速学习视频编码标准简介(上),介绍了视频编码标准简介(上)系统机制, 以及在实际应用过程中如何使用。

开发者学堂课程【高校精品课-华中科技大学 -智能媒体计算视频编码标准简介(上)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/811/detail/15723


视频编码标准简介(上)


内容介绍:

一.视频编码的标准和历程

二. MPEG-X 与 H.26X

三. MPEG 标准简介


一.视频编码的标准和历程

主要视频的压缩以 MPEG 的思想为主,26X 系列和 MPEG 系列之间有很多编码思路其实是一样的。

视频编码标准中有两个主要的标准化组织,一个是国际电信联盟 ITU-T 的视频专家组 VCEG,也就是 Video Coding Experts Group,它主要做的标准是 H.26X 系列。

另一个就是国际化标准组织 ISO 和 IEC 这两个组成的联合专家组 MPEG, MPEG 专家组和 JPEG 专家组也有很多的重合,它们所产生的标准就是 MPEG-X 系列。

主要的应用场景,H.26X 系列主要是在实时的视频通信系统中,因为相对来讲马力较低。MPEG-X 系列主要应用在比如数字监控视频、视频存储、广播电视和因特网领域。发展到今天,基本上经历了三代,第一代就是以 H.261,MPEG-1,H.262/ MPEG-2 以及 H.263 为代表的,263的后期其实已经过渡到第二代了。

它是一个基于像素的编码,压缩能力大概50-75倍。第二代 MPEG-4 和 H.264 基于对象和视频对象的编码,压缩能力达到了100-150倍。

第三代 HEVC(High Efficiency Video Coding)叫高效视频编码,主要代表是 H.265,现在已经在用了包括 MPEG-4系列,可以支持4K 的视频、3D 的蓝光和高清电视节目,压缩比最高可达到300倍。

image.png

image.png

这就是三代的产品的主要发展历程,基本上遵循了大概每十年视频编码压缩比会翻倍,或者是如果压缩比不翻倍,改用另一个压缩比时,可以保证质量会更高。


二.MPEG-X 与 H.26X

这是 MPEG-X 系列的特点,每一行表示不同的压缩标准是1、2和4,介绍了具体的情况。

image.png

比如 MPEG-1 的特点是针对速率为1.5Mbps,是标性的。MPEG-2 以后实际上到了高性的,现在 MPEG-2 也是现在数字电视中的标准。MPEG-4 支持了面向对象的编码。

image.png

26X 系列中 H.261 主要应用在可视电话和视频会议系统中,尤其是在261的时代中,网速带宽是非常低的,追求的目标是马力低,对视频的质量要求就相对较低。到了后期26X 系列,到了264、265的时候,压缩比很高,但图像质量依然保持着相对较高,有压缩算法为代价,它的复杂度也提升了。

有个体会就是在用手机看视频的时候,手机会发热,其实解码器都是用专业的芯片,也就是解码的时候,因为算法复杂,CPU 要处理的才高速运转,因此才会发热。

MPEG 叫 Moving Picture Experts Group,就是运动图像专家组,开始于1988年,目的在90年的时候建立一个标准化的草案。MPEG 专家组和 JPEG 专家组都是在 ISO 和 IEC 的领导下成立的,专家组有很多的重叠性。

因为 JPEG 目标是于静态图像,而视频中是由若干个静态图像组成的,因此运动图像中 I 帧用的就是 JPEG 的压缩标准。静止图像与运动图像的密切关系使得这两者有很大的重合,视频图像可以看作是独立编码的静止图像,以视频速率顺序地显示。

MPEG 专家小组研究数字视频图像的压缩标准、音频的压缩标准以及音频和视频的同步。注意这里就有音频了,视频中除了图像之外还有音频,这是两个通道,一个是音频通道,一个是图像通道,这两个通道之间还有要保持同步的问题。这个标准中阐明了声音和电视图像的编码和解码过程,其中严格规定了声音和图像的数据编码后组成的位数据流的句法,提供了解码的测试方案。这里的句法是死的,就是为了解码能够解得出来,其实视频标准中唯一定死的就是这个,其他的东西没有规定,尤其是压缩和解压缩的算法没有严格规定。这样的话既保证了解码器对符合编码规则的能够正确的解码,同时又为压缩算法预留了很多的空间。不同的研究者,无论是工业界还是学术界,可以发挥各自聪明才智不断改进编码和解码的算法,提升质量或者编码效率。


三.MPEG 标准简介

MPEG-1 是数字电视的标准,1992年发布,MPEG-2 是数字电视标准,1994年发布,不同的是 MPEG-1 是标清,MPEG-2 是高清。MPEG-3 在1992年7月合并到了 HDTV 中,也就是说现在真正用的是没有 MPEG-3 的。

纠正一下 MP3 是用的 MPEG-1 中的音频压缩的第三层算法,用在歌曲的压缩上,而不是 MPEG-3。MPEG-4 就是 MP4,是多媒体应用标准,是1999年发布的,其实是有不同码率的,早期是为了码率降低。MPEG-7 不是做压缩的,是多媒体内容描述接口,在2001年分布,主要是对特征标准化的描述。

MPEG-21 是数字节目的网上实时交换协议,在2007年发布,也不是做压缩的。

image.png

这是整个的历程,MPEG 家族对整个视频的压缩描述以及交换做了重大的贡献。

相关文章
|
4月前
|
人工智能 缓存 自然语言处理
AI网关可能是当下降低推理成本最经济的工程手段
网关成大模型降本关键:无需修改代码,即可节省达 70% 推理开销。
322 3
|
机器学习/深度学习 算法 Python
Python 使用SMOTE解决数据不平衡问题(最新推荐)
SMOTE是一种强大的过采样技术,可以有效地处理不平衡数据集,提升分类器的性能。通过imbalanced-learn库中的SMOTE实现,我们可以轻松地对少数类样本进行过采样,平衡数据集。在实际应用中,我们可以根据具体数据集的特点和需求,选择合适的过采样方法。
|
并行计算 API 调度
加速大语言模型推理:NVIDIATensorRT-LLM更新
本次分享由NVIDIA亚太区资深总监李曦鹏主讲,聚焦于加速大语言模型推理的挑战与解决方案。内容涵盖大模型推理优化、性能提升策略及KVCash在用户请求处理中的应用。通过TensorRT-LLM的更新,NVIDIA提供了高性能推理引擎和多种优化技术,如KVCache优化、InflightBatching等,大幅提升了大模型的推理效率。此外,还介绍了与魔搭社区的合作,支持超过50个主流模型的一键部署,显著降低了使用门槛和成本。
726 1
|
机器学习/深度学习 人工智能 算法
【球类识别系统】图像识别Python+卷积神经网络算法+人工智能+深度学习+TensorFlow
球类识别系统,本系统使用Python作为主要编程语言,基于TensorFlow搭建ResNet50卷积神经网络算法模型,通过收集 '美式足球', '棒球', '篮球', '台球', '保龄球', '板球', '足球', '高尔夫球', '曲棍球', '冰球', '橄榄球', '羽毛球', '乒乓球', '网球', '排球'等15种常见的球类图像作为数据集,然后进行训练,最终得到一个识别精度较高的模型文件。再使用Django开发Web网页端可视化界面平台,实现用户上传一张球类图片识别其名称。
751 7
【球类识别系统】图像识别Python+卷积神经网络算法+人工智能+深度学习+TensorFlow
|
编解码 监控 Android开发
视频码率、分辨率、帧率的关系
视频码率、分辨率、帧率的关系
9287 0
|
定位技术
|
存储 传感器 编解码
图像格式:常见图像格式RAW, RGB, YUV&&图像格式的解析、格式转换和看图软件
图像格式:常见图像格式RAW, RGB, YUV&&图像格式的解析、格式转换和看图软件
4734 1
|
机器学习/深度学习 物联网 大数据
|
存储 传感器 自动驾驶
网络切片——灵活自适应的网络形态 | 带你读《5G时代的承载网》之十七
传统的核心网被设计为“竖井式”的单一网络体系架构,该架构中的一组 垂直集成的网元节点提供了网络所有功能,并支持后向兼容性和互操作性,这 种“一刀切”的设计方法使网络部署成本保持在合理化区间,但是并不支持网 络的灵活和动态拓展。
网络切片——灵活自适应的网络形态  | 带你读《5G时代的承载网》之十七