开发者学堂课程【高校精品课-华中科技大学 -智能媒体计算:MPEG 音频】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/811/detail/15694
MPEG 音频
内容介绍
一.MPEG-Audio 编码
二.听觉系统的感知特性
三.MPEG 音频压缩策略
四.Dobly AC-3
一. MPEG-Audio 编码
MPEG 声音数据压缩编码
依据波形本身的相关性和模拟人的发音器官的特性
利用人的听觉系统的特性来达到压缩声音数据的目的
这种压缩编码称为感知声音编码(Perceptual Coding)
正是因为人们对声音的这种感知特性了解的越来越深入,才使得音频压缩前进一大步。
二.听觉系统的感知特性
许多科学工作者一直在研究听觉系统对声音的感知特性,已经用
在 MPEG Audio 压缩编码算法中的三个特性:
对响度的感知
对音高的感知
掩蔽效应
1.对响度的感知
声音的响度就是声音的强弱
当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为
“听阈”
当声音强到使人耳感到疼痛时,我们称此时的声音强度为“痛阈”
这两者之间就是对响度的听阈的范围。
实验表明,听阈随频率变化的
不同声音的感知特性是不同的
下面蓝色的曲是人所能听到的最低的声值,而上面的红线是让人耳感到不舒服,甚至疼痛的声音的强度。中间的范围从蓝线到红线之间的就叫听阈。
从曲线里面可以看到,曲线越低,蓝色的曲线越接近于水平,说明越敏感,很小的声音都能听到。
人脑对不同频率的敏感程度不同,其中对2kHz到4kHz的范围是最敏感。相反,左面频率很低和右边频率很高的范围内,感觉就要弱一点。
低于蓝色曲线的幅值的声音人是听不到的,则不保存;红线上面的让人听起来不舒服,也不保留。这就大幅的降低了数据,即数据本身是存在的,但是听不见或听起来不舒服的都不保留。大多数耳机都有这样的保护功能。当音量调大时不播放,因为这样会损害听力。这些都是根据声音对听觉系统的响度的感知特性来进行设计的。
2.对音高的感知
客观上的音的高低是由声音的频率决定的。
主观感觉的音高单位则时美(Mel),是科学家专门针对听力的研
究,主管音高与科观音高的关系是
人耳对频率的感觉也有一个范围
人耳可以听到的最低频率约20Hz
最高频率约20000Hz
根据响度的特性,灵感度也是不同的。这样,低于20的都不保存,高于20000的不保存,在20和20000之间,音量低的、听不见的不保留,音量高到一定程度听起来不舒服,也不保留,这样没有用的数据就去除掉了。
3.掩蔽效应
掩蔽效应:一种频率的声音阻碍听觉系统感受另一种频率的声音的现象
前者称为掩蔽声音(masking tone)
后者称为被掩蔽声音(masked tone)
掩蔽可分成频域掩蔽和时域掩蔽
频域掩蔽
一个强纯音会掩蔽在其附近同时发声的弱纯音,也称同时掩蔽(simultaneous masking)
曲线是往下的,如果在它同时发声的话,就听不见的曲线下面的其他声音。
从图中可以看出
① 在250Hz、1kHz、4kHz和8 kHz纯音附近,对其他纯音的掩敝
效果最明显
② 低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩
蔽作用则不明显
同时发声音时,被掩蔽也就是人耳听不见的不保留。尽管在单独存在的时候能够被听见,但由于周围有强纯音在同时发声,弱的就听不见了,则也不进行保留。
时域掩蔽:在时间上相邻的声音之间的掩蔽现象
时域掩蔽分为
超前掩蔽(pre-masking)
滞后掩蔽(post-masking)
产生时域掩蔽的主要原因
人的大脑处理信息需要花费一定的时间
当其他的声音来得太快,大脑来不及处理,这个声音就被丢掉了。日常生活里,有人说话很快,在你思考的时候,她一直在没有间断的说,这时没有听见她说什么的情况就是时域掩蔽的一种现象。
一般来说,超前掩蔽很短,只有大约5~20ms,而滞后掩蔽可以
持续50~200 ms
越难懂的声音接收时间越长,滞后掩蔽的时间也就越长。
三.MPEG 音频压缩策略
MPEG音频数据压缩
依据是人耳朵的听觉感知特性,使用“心理声学模型
(Psychoacoustic Model)”来达到压缩声音数据的目的
前面的三个特性,有这个心理声学专家做了心理声学模型,根据人的感知,什么样的情况下应该丢掉,什么情况应该精细化的描述。
MPEGAudio采用两种感知编码
感知子带编码(Perceptual Subband Coding)
把整个频率范围分成不同的频带,不同的频带的感知特性不同,分而治之。
Dolby AC-3(Audio Code number 3)编码
它可以进行多通道的数据编码。这是由杜比实验室开发的。
带通滤波器,把它分成一个一个的频带,在不同的频带里,编码的波长,量化的波长究竟取多少是由下面的心理声学模型来指导的,根据它来确定两款波长。心理声学模型就是前面讲的三个主要感知特性。分完以后再进行和解码,解完之后再结合。
其实在讲子带编码的时候已经讲过了这个过程,因为人对不同频率的声音的感知特性是不相同的。
四.Dobly AC-3
1994年,日本先锋公司与杜比实验室合作研制成功一种崭新的全
新的数字化多通道影视音响系统,并命名为“杜比AC3”
AC3:Audio Coding version 3
一种高级音频压缩技术,它最多可以对6个比特率最高为
448kbps的单道进行编码
5.1的音响是环绕立体的。当时的疑问是在电影院里面放电影,如何让音效更好?日本人做了杜比 AC3,美国影院系统公司做了一个 DTS 系统。家庭影院的碟机里面有的时候支持 DTS 盘,或者是 Dolby AC-3,指的都是音频的压缩标准。由于通道数很多,怎么样保存成了问题。在早期是胶片的时候,存在哪里呢?大家同步地认为音频单独存放,跟图像分开,通过采用同步技术,播放的时候进行合成。
1997年初,杜比实验室正式将杜比 AC-3环续绕声改称为杜比数
码环绕声(Dolby Suround Digital),简称为 Dolb yDigital
现在买电视机经常可以看到这个标志。
杜比 AC3具有很好的兼容性,它除了可执行自身的解码外,还可
以为杜比定向逻辑解码服务
环绕立体声
它的环绕立体声支持5.1,在更高的版本里面,比如高清影院里面其实还可以支持7.1。按照声音来讲有六个通道,就有六个通道的数据。它的编码怎么利用这个六个通道声音数据之间的相关性?其实是可以进行数据压缩的。