MPEG 音频

MPEG 音频 | 学习笔记

2022-11-21 194

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习 MPEG 音频，介绍了 MPEG 音频系统机制，以及在实际应用过程中如何使用。

开发者学堂课程【高校精品课-华中科技大学 -智能媒体计算：MPEG 音频】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/811/detail/15694

内容介绍

一．MPEG-Audio 编码

二．听觉系统的感知特性

三．MPEG 音频压缩策略

四．Dobly AC-3

一． MPEG-Audio 编码

MPEG 声音数据压缩编码

依据波形本身的相关性和模拟人的发音器官的特性

利用人的听觉系统的特性来达到压缩声音数据的目的

这种压缩编码称为感知声音编码(Perceptual Coding)

正是因为人们对声音的这种感知特性了解的越来越深入，才使得音频压缩前进一大步。

二．听觉系统的感知特性

许多科学工作者一直在研究听觉系统对声音的感知特性，已经用

在 MPEG Audio 压缩编码算法中的三个特性:

对响度的感知

对音高的感知

掩蔽效应

1.对响度的感知

声音的响度就是声音的强弱

当声音弱到人的耳朵刚刚可以听见时，我们称此时的声音强度为

“听阈”

当声音强到使人耳感到疼痛时，我们称此时的声音强度为“痛阈”

这两者之间就是对响度的听阈的范围。

实验表明，听阈随频率变化的

不同声音的感知特性是不同的

下面蓝色的曲是人所能听到的最低的声值，而上面的红线是让人耳感到不舒服，甚至疼痛的声音的强度。中间的范围从蓝线到红线之间的就叫听阈。

从曲线里面可以看到，曲线越低，蓝色的曲线越接近于水平，说明越敏感，很小的声音都能听到。

人脑对不同频率的敏感程度不同，其中对2kHz到4kHz的范围是最敏感。相反，左面频率很低和右边频率很高的范围内，感觉就要弱一点。

低于蓝色曲线的幅值的声音人是听不到的，则不保存；红线上面的让人听起来不舒服，也不保留。这就大幅的降低了数据，即数据本身是存在的，但是听不见或听起来不舒服的都不保留。大多数耳机都有这样的保护功能。当音量调大时不播放，因为这样会损害听力。这些都是根据声音对听觉系统的响度的感知特性来进行设计的。

2.对音高的感知

客观上的音的高低是由声音的频率决定的。

主观感觉的音高单位则时美（Mel），是科学家专门针对听力的研

究，主管音高与科观音高的关系是

人耳对频率的感觉也有一个范围

人耳可以听到的最低频率约20Hz

最高频率约20000Hz

根据响度的特性，灵感度也是不同的。这样，低于20的都不保存，高于20000的不保存，在20和20000之间，音量低的、听不见的不保留，音量高到一定程度听起来不舒服，也不保留，这样没有用的数据就去除掉了。

3．掩蔽效应

掩蔽效应:一种频率的声音阻碍听觉系统感受另一种频率的声音的现象

前者称为掩蔽声音(masking tone)

后者称为被掩蔽声音(masked tone)

掩蔽可分成频域掩蔽和时域掩蔽

频域掩蔽

一个强纯音会掩蔽在其附近同时发声的弱纯音，也称同时掩蔽(simultaneous masking)

曲线是往下的，如果在它同时发声的话，就听不见的曲线下面的其他声音。

从图中可以看出

① 在250Hz、1kHz、4kHz和8 kHz纯音附近，对其他纯音的掩敝

效果最明显

② 低频纯音可以有效地掩蔽高频纯音，但高频纯音对低频纯音的掩

蔽作用则不明显

同时发声音时，被掩蔽也就是人耳听不见的不保留。尽管在单独存在的时候能够被听见，但由于周围有强纯音在同时发声，弱的就听不见了，则也不进行保留。

时域掩蔽:在时间上相邻的声音之间的掩蔽现象

时域掩蔽分为

超前掩蔽(pre-masking)

滞后掩蔽(post-masking)

产生时域掩蔽的主要原因

人的大脑处理信息需要花费一定的时间

当其他的声音来得太快，大脑来不及处理，这个声音就被丢掉了。日常生活里，有人说话很快，在你思考的时候，她一直在没有间断的说，这时没有听见她说什么的情况就是时域掩蔽的一种现象。

一般来说，超前掩蔽很短，只有大约5~20ms，而滞后掩蔽可以

持续50~200 ms

越难懂的声音接收时间越长，滞后掩蔽的时间也就越长。

三．MPEG 音频压缩策略

MPEG音频数据压缩

依据是人耳朵的听觉感知特性，使用“心理声学模型

(Psychoacoustic Model)”来达到压缩声音数据的目的

前面的三个特性，有这个心理声学专家做了心理声学模型，根据人的感知，什么样的情况下应该丢掉，什么情况应该精细化的描述。

MPEGAudio采用两种感知编码

感知子带编码(Perceptual Subband Coding)

把整个频率范围分成不同的频带，不同的频带的感知特性不同，分而治之。

Dolby AC-3(Audio Code number 3)编码

它可以进行多通道的数据编码。这是由杜比实验室开发的。

带通滤波器，把它分成一个一个的频带，在不同的频带里，编码的波长，量化的波长究竟取多少是由下面的心理声学模型来指导的，根据它来确定两款波长。心理声学模型就是前面讲的三个主要感知特性。分完以后再进行和解码，解完之后再结合。

其实在讲子带编码的时候已经讲过了这个过程，因为人对不同频率的声音的感知特性是不相同的。

四．Dobly AC-3

1994年，日本先锋公司与杜比实验室合作研制成功一种崭新的全

新的数字化多通道影视音响系统，并命名为“杜比AC3”

AC3:Audio Coding version 3

一种高级音频压缩技术，它最多可以对6个比特率最高为

448kbps的单道进行编码

5.1的音响是环绕立体的。当时的疑问是在电影院里面放电影，如何让音效更好？日本人做了杜比 AC3，美国影院系统公司做了一个 DTS 系统。家庭影院的碟机里面有的时候支持 DTS 盘，或者是 Dolby AC-3，指的都是音频的压缩标准。由于通道数很多，怎么样保存成了问题。在早期是胶片的时候，存在哪里呢？大家同步地认为音频单独存放，跟图像分开，通过采用同步技术，播放的时候进行合成。

1997年初，杜比实验室正式将杜比 AC-3环续绕声改称为杜比数

码环绕声(Dolby Suround Digital)，简称为 Dolb yDigital

现在买电视机经常可以看到这个标志。

杜比 AC3具有很好的兼容性，它除了可执行自身的解码外，还可

以为杜比定向逻辑解码服务

环绕立体声

它的环绕立体声支持5.1，在更高的版本里面，比如高清影院里面其实还可以支持7.1。按照声音来讲有六个通道，就有六个通道的数据。它的编码怎么利用这个六个通道声音数据之间的相关性？其实是可以进行数据压缩的。

MPEG 音频 | 学习笔记