MPEG 音频 | 学习笔记

简介: 快速学习 MPEG 音频,介绍了 MPEG 音频系统机制, 以及在实际应用过程中如何使用。

开发者学堂课程【高校精品课-华中科技大学 -智能媒体计算MPEG 音频】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/811/detail/15694


MPEG 音频


内容介绍

一.MPEG-Audio 编码

二.听觉系统的感知特性

三.MPEG 音频压缩策略

四.Dobly AC-3


一. MPEG-Audio 编码

MPEG 声音数据压缩编码

依据波形本身的相关性和模拟人的发音器官的特性

利用人的听觉系统的特性来达到压缩声音数据的目的

这种压缩编码称为感知声音编码(Perceptual Coding)

正是因为人们对声音的这种感知特性了解的越来越深入,才使得音频压缩前进一大步。


二.听觉系统的感知特性

许多科学工作者一直在研究听觉系统对声音的感知特性,已经用

在 MPEG Audio 压缩编码算法中的三个特性:

对响度的感知

对音高的感知

掩蔽效应

1.对响度的感知

声音的响度就是声音的强弱

当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为

“听阈”

当声音强到使人耳感到疼痛时,我们称此时的声音强度为“痛阈”

这两者之间就是对响度的听阈的范围。

实验表明,听阈随频率变化的

不同声音的感知特性是不同的

image.png

下面蓝色的曲是人所能听到的最低的声值,而上面的红线是让人耳感到不舒服,甚至疼痛的声音的强度。中间的范围从蓝线到红线之间的就叫听阈。

从曲线里面可以看到,曲线越低,蓝色的曲线越接近于水平,说明越敏感,很小的声音都能听到。

人脑对不同频率的敏感程度不同,其中对2kHz到4kHz的范围是最敏感。相反,左面频率很低和右边频率很高的范围内,感觉就要弱一点。

低于蓝色曲线的幅值的声音人是听不到的,则不保存;红线上面的让人听起来不舒服,也不保留。这就大幅的降低了数据,即数据本身是存在的,但是听不见或听起来不舒服的都不保留。大多数耳机都有这样的保护功能。当音量调大时不播放,因为这样会损害听力。这些都是根据声音对听觉系统的响度的感知特性来进行设计的。

2.对音高的感知

客观上的音的高低是由声音的频率决定的。

主观感觉的音高单位则时美(Mel),是科学家专门针对听力的研

究,主管音高与科观音高的关系是

image.png

人耳对频率的感觉也有一个范围

人耳可以听到的最低频率约20Hz

最高频率约20000Hz

根据响度的特性,灵感度也是不同的。这样,低于20的都不保存,高于20000的不保存,在20和20000之间,音量低的、听不见的不保留,音量高到一定程度听起来不舒服,也不保留,这样没有用的数据就去除掉了。 

3.掩蔽效应

掩蔽效应:一种频率的声音阻碍听觉系统感受另一种频率的声音的现象

前者称为掩蔽声音(masking tone)

后者称为被掩蔽声音(masked tone)

掩蔽可分成频域掩蔽和时域掩蔽

频域掩蔽

一个强纯音会掩蔽在其附近同时发声的弱纯音,也称同时掩蔽(simultaneous masking)

image.png

曲线是往下的,如果在它同时发声的话,就听不见的曲线下面的其他声音。

从图中可以看出

在250Hz、1kHz、4kHz和8 kHz纯音附近,对其他纯音的掩敝

效果最明显

低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩

蔽作用则不明显

同时发声音时,被掩蔽也就是人耳听不见的不保留。尽管在单独存在的时候能够被听见,但由于周围有强纯音在同时发声,弱的就听不见了,则也不进行保留。

时域掩蔽:在时间上相邻的声音之间的掩蔽现象

时域掩蔽分为

超前掩蔽(pre-masking)

滞后掩蔽(post-masking)

产生时域掩蔽的主要原因

人的大脑处理信息需要花费一定的时间

当其他的声音来得太快,大脑来不及处理,这个声音就被丢掉了。日常生活里,有人说话很快,在你思考的时候,她一直在没有间断的说,这时没有听见她说什么的情况就是时域掩蔽的一种现象。

一般来说,超前掩蔽很短,只有大约5~20ms,而滞后掩蔽可以

持续50~200 ms

越难懂的声音接收时间越长,滞后掩蔽的时间也就越长。


三.MPEG 音频压缩策略

MPEG音频数据压缩

依据是人耳朵的听觉感知特性,使用“心理声学模型

(Psychoacoustic Model)”来达到压缩声音数据的目的

前面的三个特性,有这个心理声学专家做了心理声学模型,根据人的感知,什么样的情况下应该丢掉,什么情况应该精细化的描述。

MPEGAudio采用两种感知编码

感知子带编码(Perceptual Subband Coding)

把整个频率范围分成不同的频带,不同的频带的感知特性不同,分而治之。

Dolby AC-3(Audio Code number 3)编码

它可以进行多通道的数据编码。这是由杜比实验室开发的。

image.png

带通滤波器,把它分成一个一个的频带,在不同的频带里,编码的波长,量化的波长究竟取多少是由下面的心理声学模型来指导的,根据它来确定两款波长。心理声学模型就是前面讲的三个主要感知特性。分完以后再进行和解码,解完之后再结合。

其实在讲子带编码的时候已经讲过了这个过程,因为人对不同频率的声音的感知特性是不相同的。

image.png


四.Dobly AC-3

1994年,日本先锋公司与杜比实验室合作研制成功一种崭新的全

新的数字化多通道影视音响系统,并命名为“杜比AC3”

AC3:Audio Coding version 3

一种高级音频压缩技术,它最多可以对6个比特率最高为

448kbps的单道进行编码

5.1的音响是环绕立体的。当时的疑问是在电影院里面放电影,如何让音效更好?日本人做了杜比 AC3,美国影院系统公司做了一个 DTS 系统。家庭影院的碟机里面有的时候支持 DTS 盘,或者是 Dolby AC-3,指的都是音频的压缩标准。由于通道数很多,怎么样保存成了问题。在早期是胶片的时候,存在哪里呢?大家同步地认为音频单独存放,跟图像分开,通过采用同步技术,播放的时候进行合成。

1997年初,杜比实验室正式将杜比 AC-3环续绕声改称为杜比数

码环绕声(Dolby Suround Digital),简称为 Dolb yDigital

现在买电视机经常可以看到这个标志。

杜比 AC3具有很好的兼容性,它除了可执行自身的解码外,还可

以为杜比定向逻辑解码服务

环绕立体声

image.png

它的环绕立体声支持5.1,在更高的版本里面,比如高清影院里面其实还可以支持7.1。按照声音来讲有六个通道,就有六个通道的数据。它的编码怎么利用这个六个通道声音数据之间的相关性?其实是可以进行数据压缩的。

相关文章
|
6月前
|
编解码
音频 AAC和MP3的帧大小
音频 AAC和MP3的帧大小
334 0
|
6月前
|
存储 编解码 自然语言处理
常见的音频与视频格式
常见的音频格式有 WAV、MP3、FLAC、APE、AAC、OGG 等,常见的视频格式有 MP4、AVI、MOV、WMV、MKV、FLV、3GP、MPEG 等,它们在兼容性、文件大小、画质等方面各有特点。
|
XML 分布式计算 算法
Mpeg-21 | 学习笔记
快速学习 Mpeg-21,介绍了 Mpeg-21系统机制, 以及在实际应用过程中如何使用。
|
内存技术
ffmpeg4音频pcm转aac编码
本文是基于ffmpeg4开发的音频编码器开源,并对其中出现的一些bug与各界同行探讨。
396 0
ffmpeg4音频pcm转aac编码
|
存储 编解码 API
FFmpeg编解码处理4-音频编码
基于 FFmpeg 4.1 版本。
374 0
FFmpeg编解码处理4-音频编码
|
消息中间件 vr&ar 数据格式
【音视频连载-007】基础学习篇-SDL 播放 PCM 音频文件(上)
在前面的文章中已经能够利用 SDL 去播放 YUV 视频文件了,接下来要通过 SDL 去播放 PCM 音频文件。
580 0
【音视频连载-007】基础学习篇-SDL 播放 PCM 音频文件(上)
|
内存技术
【音视频连载-008】基础学习篇-SDL 播放 PCM 音频文件(下)
接上篇 SDL 播放 PCM 音频文件,已经实现了 推 的模式去播放,接下来看看 拉 的模式如何实现。
213 0
【音视频连载-008】基础学习篇-SDL 播放 PCM 音频文件(下)
|
消息中间件
【音视频连载-006】基础学习篇-SDL 播放 YUV 视频文件
在前面的文章中,我们已经能够加载 YUV 帧并显示了,那是把一张图片转换成 YUV 帧得到的素材。 如果是一个 YUV 视频文件的话,那就是很多 YUV 帧连续在一起,既然能展示一帧,那肯定可以连续展示多帧。 接下来就要这样的操作。
244 0
【音视频连载-006】基础学习篇-SDL 播放 YUV 视频文件
AAC音频格式分析与解码
一直在做一个语音项目,到了测试阶段,近来不是很忙,想把之前做的内容整理一下。   关于AAC音频格式基本情况,可参考维基百科http://en.wikipedia.org/wiki/Advanced_Audio_Coding   AAC音频格式分析 AAC音频格式有ADIF和ADTS: ADIF:Audio Data Interchange Format 音频数据交换格式。
2430 0