[笔记]音视频学习之视音频数据处理入门《二》PCM

简介: [笔记]音视频学习之视音频数据处理入门《二》PCM

PCM数据

PCM

PCM全称Pulse-Code Modulation,脉冲调制编码。

在音视频中,PCM是一种用数字表示采样模拟信号的方法。

音频模拟信号转换为数字过程:

  1. Sampling(采样)
  2. Quantization(量化)
  3. Coding(编码)

采样率(Sample rate)

每秒钟的样本数也被称之为采样率(Sample rate)。在Sampling图示案例中,采样率为每秒34次。意味着在一秒的时间内,原始信号被采样了34次(也就是蓝色垂直线段的数量)。

通常,采样率的单位用Hz表示,例如1Hz表示每秒钟对原始信号采样一次,1KHz表示每秒钟采样1000次。1MHz表示每秒钟采样1百万次。

根据场景的不同,采样率也有所不同,采样率越高,声音的还原程度越高,质量就越好,同时占用空间会变大。

例如:通话时的采样率为8KHz,常用的媒体采样率有44KHz,对于一些蓝光影片采样率高达1MHz。

采样率(sample rate),用来告诉驱动每秒钟应该播放多少个采样数据。

Quantization(量化)

原始信号采样后,需要通过量化来描述采样数据的大小。

量化处理过程,就是将时间连续的信号,处理成时间离散的信号,并用实数表示。这些实数将被转换为二进制数用于模拟信号的存储和传输。

位深

bit-depth(位深):用来描述存储数字信号值的bit数。

较常用的模拟信号位深有:

8-bit:2^8 = 256 levels,有256个等级可以用于衡量真实的模拟信号。

16-bit:2^16 = 65,536 levels,有65,536个等级可以用于衡量真实的模拟信号。

24-bit:2^24 = 16,666,216 levels,有16,666,216个等级可以用于衡量真实的模拟信号。

位深越大,对模拟信号的描述将越真实,对声音的描述更加准确。

本质

量化的过程就是将一个平顶样本四舍五入到一个可用最近level描述的过程。如图中黑色加粗梯形折线。量化过程中,我们将尽量让每个采样和一个level匹配,因为每个level都是表示一个bit值。

Encoding(编码)

在编码这一步,我们会将时间线上的每个sample数据转化为对应的二进制数据。

采样数据经过编码后产生的二进制数据,就是PCM数据。PCM数据可以直接存储在介质上,也可以在经过编解码处理后进行存储或传输。

PCM数据常用量化指标

采样率(Sample rate):每秒钟采样多少次,以Hz为单位。详见:**采样率(Sample rate)**一节。

位深度(Bit-depth):表示用多少个二进制位来描述采样数据,一般为16bit。详见:**Quantization(量化)**一节。

字节序:表示音频PCM数据存储的字节序是大端存储(big-endian)还是小端存储(little-endian),为了数据处理效率的高效,通常为小端存储。

声道数(channel number):当前PCM文件中包含的声道数,是单声道(mono)、双声道(stereo)?此外还有5.1声道等。

采样数据是否有符号(Sign):要表达的就是字面上的意思,需要注意的是,使用有符号的采样数据不能用无符号的方式播放。

以FFmpeg中常见的PCM数据格式s16le为例:它描述的是有符号16位小端PCM数据。

s表示有符号,16表示位深,le表示小端存储。

PCM数据流

PCM格式

8 Bit 单声道

一个声音通道,用一个传声器拾取声音,用一个扬声器进行放音的过程,称之为单声道。单声道是指把来自不同方位的音频信号混合后统一由录音器材把它记录下来,再由一只音箱进行重放。

格式:

采样1 采样2
数据1 数据2
8 Bit 双声道

双声道就是有两个声音通道,其原理是人们听到声音时可以根据左耳和右耳对声音相位差来判断声源的具体位置,在电路上它们往往各自传递的电信号是不一样的,电声学家在追求立体声的过程中,由于技术的限制,在最早的时候只有采用双声道来实现。

格式:

第一个字节存放第一个左声道数据(FL),第二个字节放第一个右声道数据(FL),第三个字节放第二个左声道数据(FL)…

采样1 采样2
声道1数据1 声道2数据1 声道1数据2 声道2数据2
16 Bit 单声道

格式:

采样1 采样2
数据1低字节 数据1高字节 数据1低字节 数据1高字节
16 Bit 双声道

格式:

采样1 采样2
声道1数据1低字节 声道1数据1高字节 声道2数据1低字节 声道2数据1高字节 声道1数据2低字节 声道1数据2高字节 声道2数据2低字节 声道2数据2高字节

音量控制

音量的表示实际上就是量化过程中每个采样数据的level值,只要适当的增大或者缩小采样的level就可以达到更改音量的目的。

但需要说明的是,并是不将level值*2就能得到两倍于原声音的音量。

因为如下两个原因:

  1. 数据溢出
  2. 对数描述

PCM音频采样数据处理

总结

相关文章
|
存储 编解码 安全
Opus从入门到精通(二):编解码器使用
opus_encoder_get_size()返回编码器状态要求的大小。注意,这段代码的未来版本可能改变大小,所以没有assuptions应该对它做出。编码器状态在内存中总是连续,复制它只要一个浅拷贝就足够了。使用opus_encoder_ctl()接口可以改变一些编码器的参数设置。所有这些参数都已有缺省值,所以只在必要的情况下改变它们。
2004 0
|
监控 数据可视化 Ubuntu
|
6月前
|
网络协议 Docker 容器
使用网络--容器互联
使用网络--容器互联
152 18
|
9月前
|
网络安全 数据安全/隐私保护 网络架构
为何使用长效静态IP会出现高延迟现象?
在使用长效静态IP时,出现高延迟的原因主要包括:1. 网络距离远、网络拥堵和网络质量差等环境因素;2. 服务器负载高、性能低等服务器相关问题;3. 代理协议加密、网络配置不当等配置因素;4. 目标服务器响应慢。这些因素都会影响数据传输速度,导致延迟增加。希望以上分析能帮助解决您的问题。
305 8
|
机器学习/深度学习 存储 人工智能
梯度累积的隐藏陷阱:Transformer库中梯度累积机制的缺陷与修正
在本地微调大规模语言模型时,由于GPU显存限制,通常采用梯度累积技术来模拟大批次训练。然而,实际研究表明,梯度累积方法在主流深度学习框架中会导致模型性能显著下降,尤其是在多GPU环境中。本文详细探讨了梯度累积的基本原理、应用场景及存在的问题,并通过实验验证了修正方案的有效性。研究指出,该问题可能在过去多年中一直存在且未被发现,影响了模型的训练效果。
939 4
梯度累积的隐藏陷阱:Transformer库中梯度累积机制的缺陷与修正
|
消息中间件 存储 前端开发
资深Android开发的5个经典面试题
本文首发于公众号“AntDream”,欢迎关注。文章详细解答了五个常见的Android面试题,涵盖内存泄漏与溢出、Binder机制、MVC/MVP/MVVM架构、Handler机制及Context对象等内容,帮助读者深入了解Android开发的核心概念。
289 0
|
存储 Kubernetes 负载均衡
在K8S中,kube-proxy ipvs 和 iptables 有何异同?
在K8S中,kube-proxy ipvs 和 iptables 有何异同?
|
监控 前端开发 Java
五分钟后,你将学会在SpringBoot项目中如何集成CAT调用链
五分钟后,你将学会在SpringBoot项目中如何集成CAT调用链
|
存储 算法 调度
【数据结构与算法】详解循环队列:基于数组实现高效存储与访问
【数据结构与算法】详解循环队列:基于数组实现高效存储与访问