前言
本节对视频相关知识进行了详细的介绍及讲解。
一、视频基础概念
1、图像基础知识
①、像素点
说视频之前,先要说说图像。
图像,大家都知道,是由很多“带有颜色的点”组成的。这个点,就是“像素点”。
像素点的英文叫 Pixel(缩写为 PX)。像素是图像显示的基本单位。
我们通常说一幅图片的大小,例如是 1920×1080,就是宽度为 1920 个像素点,高度为 1080 个像素点。乘积是 2,073,600,也就是说,这个图片是两百万像素的。
1920×1080,这个也被称为这幅图片的分辨率。
分辨率也是显示器的重要指标
②、什么是 PPI
PPI,就是“Pixels Per Inch”,每英寸像素数。也就是,手机(或显示器)屏幕上每英寸面积,到底能放下多少个“像素点”。
PPI 越高,图像就越清晰细腻。
③、颜色在计算机里是如何表示的?
三原色:红色(Red) 、绿色( Green) 、蓝色( Blue)
在计算机里,R、G、B 也被称为“基色分量”。它们的取值,分别从 0 到 255,一共 256 个等级(256 是 2 的 8 次方) 。
通过这种方式, 一共能表达多少种颜色呢?
256×256×256=16,777,216 种, 因此也简称为 1600 万色。
RGB 三色,每色有 8bit,这种方式表达出来的颜色,也被称为 24 位色(占用 24bit) 。
2、视频编码基础知识
基本介绍之前的博文已有讲解,这里不再赘述,参考音视频入门基础理论知识
①、编码
编码:就是按指定的方法,将信息从一种形式(格式) ,转换成另一种形式(格式) 。
视频编码:就是将一种视频格式,转换成另一种视频格式。
编码的终极目的,说白了,就是为了压缩。
视频从录制到播放的整个过程,如下:
②、YUV
视频通信系统之所以要采用 YUV,而不是 RGB,主要是因为 RGB 信号不利于压缩。
主流的采样方式有三种:
- YUV4:4:4
- YUV4:2:2
- YUV4:2:0
通常用的是 YUV4:2:0 的采样方式, 能获得 1/2 的压缩率。
3、数字视频
数字视频可以理解为自然场景空间和时间的数字采样表示。
- 空间采样的主要技术指标为:解析度(Resolution)
- 时间采样的主要技术指标为:帧率(帧/秒)
4、人类视觉系统 HVS
①、HVS 的构成
- 眼睛
- 神经
- 大脑
②、HVS 特点
- 对高频信息不敏感
- 对高对比度更敏感
- 对亮度信息比色度信息更敏感
- 对运动的信息更敏感
针对 HVS 的特点, 数字视频系统的设计应该考虑哪些因素?
- 丢弃高频信息, 只编码低频信息
- 提高边缘信息的主观质量
- 降低色度的解析度
- 对感兴趣区域(Region of Interesting, ROI)进行特殊处理
5、通用的 YUV 图像格式
根据 YUV 图像的亮度、分辨率定义了如下图像格式:
6、帧和场图像
一帧图像包括两场——顶场,底场:
7、逐行与隔行图像
- 逐行图像是指:一帧图像的两场在同一时间得到,ttop=tbot。
- 隔行图像是指:一帧图像的两场在不同时间得到,ttop≠tbot。
8、几个基本概念
①、帧(Frame)
既然视频是由许多静态图片组成的,那么视频的每一张静态图片就叫一帧。
视频帧又分为 I 帧、 B 帧和 P 帧:
- I 帧:帧内编码帧,大多数情况下 I 帧就是关键帧,就是一个完整帧,无需任何辅助就能独立完整显示的画面。
- B 帧:帧是双向预测帧。参考前后图像帧编码生成。需要前面的 I/P 帧或者后面的 P 帧来协助形成一个画面。
- P 帧:前向预测编码帧。是一个非完整帧,通过参考前面的 I 帧或 P 帧生成画面。
②、帧数
帧数其实就是为帧生成数量的简称,可以解释为静止画面的数量。
定义:用于测量显示帧数的量度。单位为 FPS(Frames per Second, 每秒显示帧数)或赫兹(Hz) 。
帧率越高,画面越流畅、逼真,对显卡的处理能力要求越高,数据量越大。
③、帧率(Frame Rate)
帧率(Frame rate) = 帧数(Frames)/时间(Time), 单位为帧每秒(f/s,frames per second,fps)。
10~12 FPS:由于人类眼睛的特殊生理结构,如果所看画面之帧率高于每秒约 10 至 12 帧的时候,就会认为是连贯的,此现象称之为视觉暂留。
- 24 FPS:一般电影的拍摄及播放帧数是每秒 24 帧。
- 60 FPS:这个帧率对人眼识别来说已经具备较高的平滑度。
- 85 FPS:人类大脑处理视频的极限,人眼无法分辨更高频率的差异。
60 FPS:在做页面性能优化时,常用 60FPS 作为一个基准,所以需要尽量让每一帧的渲染控制在 16ms 内, 这样才能达到一秒 60 帧的流畅度。
④、刷新率
屏幕每秒画面被刷新的次数,分为垂直刷新率和水平刷新率,一般我们提到的都是指垂直刷新率,以赫兹(Hz)为单位,刷新率越高,图像就越稳定,图像显示就越自然清晰。
目前,大多数显示器根据其设定按 30Hz、60Hz、120Hz 或者 144Hz 的频率进行刷新。 而其中最常见的刷新频率是 60 Hz。这样做是为了继承以前电视机刷新频率为 60Hz 的设定。
⑤、分辨率
视频、图片的画面大小或尺寸。分辨率是以横向和纵向的像素数量来衡量的,表示平面图像的精细程度。
视频精细程度并不只取决于视频分辨率,还取决于屏幕分辨率
1080P 的 P 指 Progressive scan( 逐行扫描) ,即垂直方向像素点,也就是 “高”,所以 1920X1080 叫 1080P,不叫 1920P。
当 720P 的视频在 1080P 屏幕上播放时,需要将图像放大,放大操作也叫上采样。
⑥、码率/比特率
单位时间播放连续的媒体如压缩后的音频或视频的比特数量。常用单位“比特每秒”,缩写是“bit/s”。比特率越高,带宽消耗得越多。
比特率即码率,在不同领域有不同的含义,在多媒体领域,指单位时间播放音频或视频的比特数,可以理解成吞吐量或带宽。
单位为 bps,即 bits per second,每秒传输的数据量,常用单位有:kbps、mbps 等
计算公式: 码率(kbps)= 文件大小(kb) / 时长(s)
<1>、动态比特率
简称为 VBR,即 Variable Bit Rate,比特率可以随着图像复杂程度的不同而随之变化。图像内容简单的片段采用较小的码率,图像内容复杂的片段采用较大的码率,这样既保证了播放质量,又兼顾了数据量的限制。
<2>、静态比特率
简称为 CBR, 即 Constant Bit Rate, 比特率恒定。图像内容复杂的片段质量不稳定, 图像内容简单的片段质量较好。
⑦、颜色模式(颜色空间)
RGB 和 YUV 这里不再赘述,我们讲一下 HSV
HSV
色调 H:用角度度量,取值范围为 0°~360°,从红色开始按逆时针方向计算,红色为 0°,绿色为 120°,蓝色为 240°。它们的补色是:黄色为 60°,青色为 180°,品红为 300°;
饱和度 S:饱和度 S 表示颜色接近光谱色的程度。一种颜色,可以看成是某种光谱色与白色混合的结果。其中光谱色所占的比例愈大,颜色接近光谱色的程度就愈高,颜色的饱和度也就愈高。饱和度高,颜色则深而艳。光谱色的白光成分为 0,饱和度达到最高。通常取值范围为 0%~100%,值越大,颜色越饱和。
明度 V:明度表示颜色明亮的程度,对于光源色,明度值与发光体的光亮度有关;对物体色,此值和物体的透射比或反射比有关。通常取值范围为 0%(黑) 到 100%(白) 。
HSV 模型的三维表示从 RGB 立方体演化而来。设想从 RGB 沿立方体对角线的白色顶点向黑色顶点观察,就可以看到立方体的六边形外形。 六边形边界表示色彩, 水平轴表示纯度,明度沿垂直轴测量。
⑧、视频文件格式、封装格式
- 视频文件格式(简称:文件格式)
- 视频封装格式(简称:视频格式)
- 视频编码方式(简称:视频编码)
<1>、视频文件格式
常见的视频文件格式如 1.avi,2.mpg 这些都叫做视频的文件格式,它由你电脑上安装的视频播放器关联。
<2>、视频封装格式
AVI,MPEG,VOB 是一种视频封装格式,相当于一种储存视频信息的容器。
AVI 格式(后缀为 .AVI):它的英文全称为 Audio Video Interleaved,即音频视频交错格式。这种视频格式的优点是图像质量好。由于无损 AVI 可以保存 alpha 通道,经常被我们使用。缺点太多,体积过于庞大,而且更加糟糕的是压缩标准不统一。
DV-AVI 格式(后缀为 .AVI):DV 的英文全称是 Digital Video Format,是由索尼、松下、 JVC 等多家厂商联合提出的一种家用数字视频格式。数字摄像机就是使用这种格式记录视频数据的。
QuickTime File Format 格式(后缀为 .MOV):具有较高的压缩比率和较完美的视频清晰度等特点,并可以保存 alpha 通道。
MPEG 格式(文件后缀可以是 .MPG .MPEG .MPE .DAT .VOB .ASF .3GP .MP4等) :
MPEG 文件格式是运动图像压缩算法的国际标准。MPEG 格式目前有三个压缩标准,分别是 MPEG-1、MPEG-2、和 MPEG-4。
WMV 格式(后缀为 .WMV .ASF) :WMV 格式的主要优点包括:本地或网络回放,丰富的流间关系以及扩展性等。
Flash Video 格式(后缀为.FLV) :随着视频网站的丰富, 这个格式已经非常普及。
Matroska 格式( 后缀为.MKV):是一种新的多媒体封装格式, 这个封装格式可把多种不同编码的视频及 16 条或以上不同格式的音频和语言不同的字幕封装到一个 Matroska Media 档内。Matroska 同时还可以提供非常好的交互功能, 而且比 MPEG 的方便、 强大。常用视频格式及对应的文件格式:
视频封装格式 | 视频文件格式 |
AVI(Audio Video Interleave) | AVI |
WMV(Windows Media Video) | WMV |
MPEG(Moving Picture Expert Group)分为 MPEG-1,MPEG-2,MPEG-4 | MPG MPEG VOB DAT 3GP MP4 |
Matroska | MKV |
Real Video | RM RMVB |
QuickTime File Format | MOV |
Flash Video | FLV |
<3>、视频编码方式(简称:视频编码)
所谓视频编码方式就是指能够对数字视频进行压缩或者解压缩( 视频解码)的程序或者设备。通常这种压缩属于有损数据压缩。
也可以指通过过特定的压缩技术,将某个视频格式转换成另一种视频格式。常见的编码方式有:
H.26X 系列( 由 ITU[国际电传视讯联盟]主导)包括 H.261、H.262、H.263、 H.264、H.265。
H.261:主要在老的视频会议和视频电话产品中使用。
H.263:主要用在视频会议、视频电话和网络视频上。
H.264:H.264/MPEG-4 第十部分,或称 AVC( Advanced Video Coding, 高级视频编码) ,是一种视频压缩标准,一种被广泛使用的高精度视频的录制、压缩和发布格式。
H.265:高效率视频编码( High Efficiency Video Coding,简称 HEVC)是一种视频压缩标准,H.264/MPEG-4 AVC 的继任者。HEVC 被认为不仅提升图像质量,同时也能达到 H.264/MPEG-4 AVC 两倍之压缩率(等同于同样画面质量下比特率减少了 50%),可支持 4K 分辨率甚至到超高画质电视,最高分辨率可达到 8192×4320( 8K 分辨率),这是目前发展的趋势。
MPEG 系列(由 ISO[国际标准组织机构]下属的 MPEG[运动图象专家组]开发 )视频编码方面主要有
MPEG-1 第二部分( MPEG-1 第二部分主要使用在 VCD 上,有些在线视频也使用这种格式。该编解码器的质量大致上和原有的 VHS 录像带相当。
MPEG-2 第二部分( MPEG-2 第二部分等同于 H.262,使用在 DVD、SVCD 和大多数数字视频广播系统和有线分布系统(cable distribution systems) 中。)
MPEG-4 第二部分(MPEG-4 第二部分标准可以使用在网络传输、广播和媒体存储上。比起 MPEG-2 和第一版的 H.263,它的压缩性能有所提高。)
MPEG-4 第十部分(MPEG-4 第十部分技术上和 ITU-TH.264 是相同的标准,有时候也被叫做“AVC”)最后这两个编码组织合作,诞生了 H.264/AVC 标准。
其他系列:
AMV、AVS、Bink、CineForm、Cinepak、Dirac、DV、Indeo Video 、Pixlet、RealVideo、RTVideo、SheerVideo、Smacker、Sorenson Video、Theora、VC-1、VP3、VP6、VP7、VP8、VP9、WMV。
视频的编码格式才是一个视频文件的本质所在,不要简单的通过文件格式和封装形式来区分视频。