视频基础知识 1

简介: 视频基础知识

前言

本节对视频相关知识进行了详细的介绍及讲解。


一、视频基础概念

1、图像基础知识

①、像素点

说视频之前,先要说说图像。

图像,大家都知道,是由很多“带有颜色的点”组成的。这个点,就是“像素点”。


像素点的英文叫 Pixel(缩写为 PX)。像素是图像显示的基本单位。

我们通常说一幅图片的大小,例如是 1920×1080,就是宽度为 1920 个像素点,高度为 1080 个像素点。乘积是 2,073,600,也就是说,这个图片是两百万像素的。

1920×1080,这个也被称为这幅图片的分辨率。

分辨率也是显示器的重要指标

②、什么是 PPI

PPI,就是“Pixels Per Inch”,每英寸像素数。也就是,手机(或显示器)屏幕上每英寸面积,到底能放下多少个“像素点”。

PPI 越高,图像就越清晰细腻。

③、颜色在计算机里是如何表示的?

三原色:红色(Red) 、绿色( Green) 、蓝色( Blue)

在计算机里,R、G、B 也被称为“基色分量”。它们的取值,分别从 0 到 255,一共 256 个等级(256 是 2 的 8 次方) 。

通过这种方式, 一共能表达多少种颜色呢?

256×256×256=16,777,216 种, 因此也简称为 1600 万色。

RGB 三色,每色有 8bit,这种方式表达出来的颜色,也被称为 24 位色(占用 24bit) 。

2、视频编码基础知识

基本介绍之前的博文已有讲解,这里不再赘述,参考音视频入门基础理论知识

①、编码

编码:就是按指定的方法,将信息从一种形式(格式) ,转换成另一种形式(格式) 。

视频编码:就是将一种视频格式,转换成另一种视频格式。

编码的终极目的,说白了,就是为了压缩。

视频从录制到播放的整个过程,如下:


②、YUV

视频通信系统之所以要采用 YUV,而不是 RGB,主要是因为 RGB 信号不利于压缩。

主流的采样方式有三种:

  • YUV4:4:4
  • YUV4:2:2
  • YUV4:2:0

通常用的是 YUV4:2:0 的采样方式, 能获得 1/2 的压缩率。

3、数字视频

数字视频可以理解为自然场景空间和时间的数字采样表示

  • 空间采样的主要技术指标为:解析度(Resolution)
  • 时间采样的主要技术指标为:帧率(帧/秒)

4、人类视觉系统 HVS

①、HVS 的构成

  • 眼睛
  • 神经
  • 大脑

②、HVS 特点

  • 对高频信息不敏感
  • 对高对比度更敏感
  • 对亮度信息比色度信息更敏感
  • 对运动的信息更敏感

针对 HVS 的特点, 数字视频系统的设计应该考虑哪些因素?

  • 丢弃高频信息, 只编码低频信息
  • 提高边缘信息的主观质量
  • 降低色度的解析度
  • 对感兴趣区域(Region of Interesting, ROI)进行特殊处理

5、通用的 YUV 图像格式

根据 YUV 图像的亮度、分辨率定义了如下图像格式:

6、帧和场图像

一帧图像包括两场——顶场,底场:

7、逐行与隔行图像

  • 逐行图像是指:一帧图像的两场在同一时间得到,ttop=tbot。
  • 隔行图像是指:一帧图像的两场在不同时间得到,ttop≠tbot。

8、几个基本概念

①、帧(Frame)

既然视频是由许多静态图片组成的,那么视频的每一张静态图片就叫一帧。

视频帧又分为 I 帧、 B 帧和 P 帧:

  • I 帧:帧内编码帧,大多数情况下 I 帧就是关键帧,就是一个完整帧,无需任何辅助就能独立完整显示的画面。
  • B 帧:帧是双向预测帧。参考前后图像帧编码生成。需要前面的 I/P 帧或者后面的 P 帧来协助形成一个画面。
  • P 帧:前向预测编码帧。是一个非完整帧,通过参考前面的 I 帧或 P 帧生成画面。

②、帧数

帧数其实就是为帧生成数量的简称,可以解释为静止画面的数量。

定义:用于测量显示帧数的量度。单位为 FPS(Frames per Second, 每秒显示帧数)或赫兹(Hz) 。

帧率越高,画面越流畅、逼真,对显卡的处理能力要求越高,数据量越大。

③、帧率(Frame Rate)

帧率(Frame rate) = 帧数(Frames)/时间(Time), 单位为帧每秒(f/s,frames per second,fps)。


10~12 FPS:由于人类眼睛的特殊生理结构,如果所看画面之帧率高于每秒约 10 至 12 帧的时候,就会认为是连贯的,此现象称之为视觉暂留。

  • 24 FPS:一般电影的拍摄及播放帧数是每秒 24 帧。
  • 60 FPS:这个帧率对人眼识别来说已经具备较高的平滑度。
  • 85 FPS:人类大脑处理视频的极限,人眼无法分辨更高频率的差异。

60 FPS:在做页面性能优化时,常用 60FPS 作为一个基准,所以需要尽量让每一帧的渲染控制在 16ms 内, 这样才能达到一秒 60 帧的流畅度。

④、刷新率

屏幕每秒画面被刷新的次数,分为垂直刷新率和水平刷新率,一般我们提到的都是指垂直刷新率,以赫兹(Hz)为单位,刷新率越高,图像就越稳定,图像显示就越自然清晰。


目前,大多数显示器根据其设定按 30Hz、60Hz、120Hz 或者 144Hz 的频率进行刷新。 而其中最常见的刷新频率是 60 Hz。这样做是为了继承以前电视机刷新频率为 60Hz 的设定。

⑤、分辨率

视频、图片的画面大小或尺寸。分辨率是以横向和纵向的像素数量来衡量的,表示平面图像的精细程度。

视频精细程度并不只取决于视频分辨率,还取决于屏幕分辨率

1080P 的 P 指 Progressive scan( 逐行扫描) ,即垂直方向像素点,也就是 “高”,所以 1920X1080 叫 1080P,不叫 1920P。

当 720P 的视频在 1080P 屏幕上播放时,需要将图像放大,放大操作也叫上采样。

⑥、码率/比特率

单位时间播放连续的媒体如压缩后的音频或视频的比特数量。常用单位“比特每秒”,缩写是“bit/s”。比特率越高,带宽消耗得越多。

比特率即码率,在不同领域有不同的含义,在多媒体领域,指单位时间播放音频或视频的比特数,可以理解成吞吐量或带宽。

单位为 bps,即 bits per second,每秒传输的数据量,常用单位有:kbps、mbps 等

计算公式: 码率(kbps)= 文件大小(kb) / 时长(s)

<1>、动态比特率

简称为 VBR,即 Variable Bit Rate,比特率可以随着图像复杂程度的不同而随之变化。图像内容简单的片段采用较小的码率,图像内容复杂的片段采用较大的码率,这样既保证了播放质量,又兼顾了数据量的限制。

<2>、静态比特率

简称为 CBR, 即 Constant Bit Rate, 比特率恒定。图像内容复杂的片段质量不稳定, 图像内容简单的片段质量较好。

⑦、颜色模式(颜色空间)

RGB 和 YUV 这里不再赘述,我们讲一下 HSV

HSV

色调 H:用角度度量,取值范围为 0°~360°,从红色开始按逆时针方向计算,红色为 0°,绿色为 120°,蓝色为 240°。它们的补色是:黄色为 60°,青色为 180°,品红为 300°;

饱和度 S:饱和度 S 表示颜色接近光谱色的程度。一种颜色,可以看成是某种光谱色与白色混合的结果。其中光谱色所占的比例愈大,颜色接近光谱色的程度就愈高,颜色的饱和度也就愈高。饱和度高,颜色则深而艳。光谱色的白光成分为 0,饱和度达到最高。通常取值范围为 0%~100%,值越大,颜色越饱和。

明度 V:明度表示颜色明亮的程度,对于光源色,明度值与发光体的光亮度有关;对物体色,此值和物体的透射比或反射比有关。通常取值范围为 0%(黑) 到 100%(白) 。

573d2e6de6d2467abf1d9964a00ab9ae.png

HSV 模型的三维表示从 RGB 立方体演化而来。设想从 RGB 沿立方体对角线的白色顶点向黑色顶点观察,就可以看到立方体的六边形外形。 六边形边界表示色彩, 水平轴表示纯度,明度沿垂直轴测量。


⑧、视频文件格式、封装格式

  • 视频文件格式(简称:文件格式)
  • 视频封装格式(简称:视频格式)
  • 视频编码方式(简称:视频编码)
<1>、视频文件格式

常见的视频文件格式如 1.avi,2.mpg 这些都叫做视频的文件格式,它由你电脑上安装的视频播放器关联。

<2>、视频封装格式

AVI,MPEG,VOB 是一种视频封装格式,相当于一种储存视频信息的容器。

AVI 格式(后缀为 .AVI):它的英文全称为 Audio Video Interleaved,即音频视频交错格式。这种视频格式的优点是图像质量好。由于无损 AVI 可以保存 alpha 通道,经常被我们使用。缺点太多,体积过于庞大,而且更加糟糕的是压缩标准不统一。

DV-AVI 格式(后缀为 .AVI):DV 的英文全称是 Digital Video Format,是由索尼、松下、 JVC 等多家厂商联合提出的一种家用数字视频格式。数字摄像机就是使用这种格式记录视频数据的。

QuickTime File Format 格式(后缀为 .MOV):具有较高的压缩比率和较完美的视频清晰度等特点,并可以保存 alpha 通道。

MPEG 格式(文件后缀可以是 .MPG .MPEG .MPE .DAT .VOB .ASF .3GP .MP4等) :

MPEG 文件格式是运动图像压缩算法的国际标准。MPEG 格式目前有三个压缩标准,分别是 MPEG-1、MPEG-2、和 MPEG-4。

WMV 格式(后缀为 .WMV .ASF) :WMV 格式的主要优点包括:本地或网络回放,丰富的流间关系以及扩展性等。

Flash Video 格式(后缀为.FLV) :随着视频网站的丰富, 这个格式已经非常普及。

Matroska 格式( 后缀为.MKV):是一种新的多媒体封装格式, 这个封装格式可把多种不同编码的视频及 16 条或以上不同格式的音频和语言不同的字幕封装到一个 Matroska Media 档内。Matroska 同时还可以提供非常好的交互功能, 而且比 MPEG 的方便、 强大。常用视频格式及对应的文件格式:

视频封装格式 视频文件格式
AVI(Audio Video Interleave) AVI
WMV(Windows Media Video) WMV
MPEG(Moving Picture Expert Group)分为 MPEG-1,MPEG-2,MPEG-4 MPG MPEG VOB DAT 3GP MP4
Matroska MKV
Real Video RM RMVB
QuickTime File Format MOV
Flash Video FLV
<3>、视频编码方式(简称:视频编码)

所谓视频编码方式就是指能够对数字视频进行压缩或者解压缩( 视频解码)的程序或者设备。通常这种压缩属于有损数据压缩。

也可以指通过过特定的压缩技术,将某个视频格式转换成另一种视频格式。常见的编码方式有:


H.26X 系列( 由 ITU[国际电传视讯联盟]主导)包括 H.261、H.262、H.263、 H.264、H.265。

H.261:主要在老的视频会议和视频电话产品中使用。

H.263:主要用在视频会议、视频电话和网络视频上。

H.264:H.264/MPEG-4 第十部分,或称 AVC( Advanced Video Coding, 高级视频编码) ,是一种视频压缩标准,一种被广泛使用的高精度视频的录制、压缩和发布格式。

H.265:高效率视频编码( High Efficiency Video Coding,简称 HEVC)是一种视频压缩标准,H.264/MPEG-4 AVC 的继任者。HEVC 被认为不仅提升图像质量,同时也能达到 H.264/MPEG-4 AVC 两倍之压缩率(等同于同样画面质量下比特率减少了 50%),可支持 4K 分辨率甚至到超高画质电视,最高分辨率可达到 8192×4320( 8K 分辨率),这是目前发展的趋势。

MPEG 系列(由 ISO[国际标准组织机构]下属的 MPEG[运动图象专家组]开发 )视频编码方面主要有

MPEG-1 第二部分( MPEG-1 第二部分主要使用在 VCD 上,有些在线视频也使用这种格式。该编解码器的质量大致上和原有的 VHS 录像带相当。

MPEG-2 第二部分( MPEG-2 第二部分等同于 H.262,使用在 DVD、SVCD 和大多数数字视频广播系统和有线分布系统(cable distribution systems) 中。)

MPEG-4 第二部分(MPEG-4 第二部分标准可以使用在网络传输、广播和媒体存储上。比起 MPEG-2 和第一版的 H.263,它的压缩性能有所提高。)

MPEG-4 第十部分(MPEG-4 第十部分技术上和 ITU-TH.264 是相同的标准,有时候也被叫做“AVC”)最后这两个编码组织合作,诞生了 H.264/AVC 标准。

其他系列:

AMV、AVS、Bink、CineForm、Cinepak、Dirac、DV、Indeo Video 、Pixlet、RealVideo、RTVideo、SheerVideo、Smacker、Sorenson Video、Theora、VC-1、VP3、VP6、VP7、VP8、VP9、WMV。

视频的编码格式才是一个视频文件的本质所在,不要简单的通过文件格式和封装形式来区分视频。

目录
相关文章
|
存储 编解码 监控
视频基础知识 3
视频基础知识
823 0
|
存储 编解码 算法
音视频入门基础理论知识
音视频入门基础理论知识
1138 0
|
存储 小程序 编译器
数据的存储--大小端
数据的存储--大小端
858 0
|
3月前
|
自然语言处理 API 内存技术
Qwen3-LiveTranslate-Flash:视、听、说全模态同传大模型
通义千问Qwen3-LiveTranslate-Flash推出实时多模态同声传译,支持18种语言及多种方言,融合视觉信息增强理解,实现3秒超低延迟、高精度语音翻译,适用于复杂环境下的跨语言交流。
489 1
Qwen3-LiveTranslate-Flash:视、听、说全模态同传大模型
|
存储 传感器 编解码
Android OpenGL 渲染图像读取哪家强
glReadPixels 是 OpenGL ES 的 API ,OpenGL ES 2.0 和 3.0 均支持。 使用非常方便,下面一行代码即可搞定,但是效率也是最低的。
1842 0
Android OpenGL 渲染图像读取哪家强
|
存储 安全 5G
|
编解码 固态存储 容器
视频技术入门指南
你真的理解视频技术吗?什么是帧率、分辨率、码率?它们之间有什么关系?你知道“1080p”和“4K”中的“p”和“K”代表什么吗?如何描述视频质量?蓝光光盘(Blu-ray Disc)究竟是什么?H.264/AVC、H.265/HEVC、AV1 等编解码器有什么区别?苹果的 Apple ProRes 又有什么特殊用途?HDR 和杜比视界(Dolby Vision)是什么?为什么视频文件有.mp4、.mkv、.flv 等多种后缀?
2118 0
视频技术入门指南
|
人工智能 Linux Docker
一文详解几种常见本地大模型个人知识库工具部署、微调及对比选型(1)
近年来,大模型在AI领域崭露头角,成为技术创新的重要驱动力。从AlphaGo的胜利到GPT系列的推出,大模型展现出了强大的语言生成、理解和多任务处理能力,预示着智能化转型的新阶段。然而,要将大模型的潜力转化为实际生产力,需要克服理论到实践的鸿沟,实现从实验室到现实世界的落地应用。阿里云去年在云栖大会上发布了一系列基于通义大模型的创新应用,标志着大模型技术开始走向大规模商业化和产业化。这些应用展示了大模型在交通、电力、金融、政务、教育等多个行业的广阔应用前景,并揭示了构建具有行业特色的“行业大模型”这一趋势,大模型知识库概念随之诞生。
158009 30
|
前端开发 容器
前端基础(十五)_多栏布局(两列自适应布局、圣杯布局---三列布局、双飞翼布局--三列布局、等高布局)
本文介绍了前端开发中的多种自适应布局技术,包括两列自适应布局、圣杯布局(三列布局)、双飞翼布局(三列布局)和等高布局。文章通过代码示例展示了如何使用HTML和CSS实现这些布局,以及如何通过flex布局简化实现过程。
630 2
|
缓存 安全 网络协议
【Linux】已解决:There are no enabled repos. Run “yum repolist all” to see the repos you have. You can en
【Linux】已解决:There are no enabled repos. Run “yum repolist all” to see the repos you have. You can en
2692 1