开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):智能语音技术的处理对象(二)】
课程地址:https://edu.aliyun.com/course/3112108/lesson/19284
智能语音技术的处理对象(二)
三、智能语音技术的处理对象
1、音频文件的参数介绍
前面讲的语音是什么,语音信号是什么?一段语音到被计算机处理,要录制成计算机里面的音频文件,对于计算机而言呢?它只是一段代码,那我们要如何去区分这段语音?
我们下面来介绍一下音频文件的参数,首先介绍这个声道在录制声音的时候,在不同的空间的位置相互独立的这个音频信号就是声道,就是声音的通道。声音录制时的音缘的数量,常见的音频的数据有单声道或者是双声道,双声道呢?有立体声,就是有两个声音的通道,单声道是比较原始的声音的复类的形式,早期的经常采用双声道,它有两个声源,这样的话,在回放的时候,人们就可以可以听到声音,根据左耳对声音产生的这种效益。声源的位置,所以说双声道听起来之后就有立体的这种感受了。这种会更有让不让这个听到的辩量会有这种山临奇境的感觉。其实除了单声道和双声道之外,在某些情况下,这个声导的这个信息可能是不需要的。在这个阿里云里面,除了录音文件识别以外的服务只支持单声道的语音数据,如果数据是双声道或者是其他需要先转换成单声道。
接下来是比特率。数据传输是单位时间传送的这个数据,位数据就叫比特率,也就是每秒的传输的速度。比特率越高,传送数据的速度就越快,总的来看,它的比特率越高,传送数去越快,它的声音的质量就越好。
接下来是音频采样率,它是指的是录音设备在一秒钟对声音信号的采样的次数,那它采产两者频率越高,声音的还原就越自然,声音就越保真。音频的采量位数,采样值或者是取样值,就是把采样样本的辅助量化,用来衡量声音波动变化的参数,或者是增卡的分辨率,这个数值越大,增辨率越高,发出声音的能力就越强,
2、音频编码
我们的计算机处于声音的时候,特别是语音,我们要把它记录下来。记录下来的时候怎么样对这个声音的信号进行编码的有很多的方式,这也是为什么大家看到很多声音的文件,它的这个文件的格式不一样?我们对声音的需求不一样,比如有的情况下,我们希望能够最大化的去真实的记录声音,但有的时候我们的要求没有那么高,反而是希望能够节约存储空间,能够在传输的时候速度会快一点,这样的话就导致了我们在对音频进行编码的时候的方式不一样。
在调用案例里,一个智能语音交互服务之前,我们需要确认,语音数据编码的格式是服务能够支持的。
下面我们介绍几种常见的编码的格式,首先是这个pcm叫脉冲编码调制,它是的,缩写pcm编码,它的最大的优点就是音制好,最大的缺点就是体积大,我们常见的cd就是采用了pcm编码,一张光盘的容量大概只能容纳72分钟的音乐信息。Vivo是非常常见的语音格式,是微软公司专门为windows开发的一种标准的音频文件,这种文件格式,它能记录各种单声到的或者是一体声的声音信息,还能保证声音不是真的mp3,mp3是非常常见的声音的文件各格式,在这个中的mp3文件上面,它的听感是接近于文件的。当然,在不同的应用场景下,应该调整合适的参数来达到更好的效果。Mp三这种的适的特点是,它的音质在128kb,每秒以上的表现是不错的,它的压缩比较高,大量的软件和硬件都支持。它的兼容性也好,它比较适用于那种满足高比特率和兼容性的一种音乐欣赏的场景。第四种叫ac,它的全称是coding ac,它是一种专门为声音素数据设计的文件压缩格式。它采用了全新的算法进行编码,更加的高效,更加的有性价比,用这种格式能够当人感觉声音的质量没有下降,但是,这个文件会变得更加的少,小苹果的这个ipod就会支持ac这种格式的音频文件,这种是一种类似于mp3的一种音频压缩的格式,但是,有一点叫特殊的是odg它是完全免费的,开放的,没有专利限制的。最后一种是flag,它的英文的全称是它译过来就是叫无损的音频压缩编码啊。你看名字就知道,它的最大的特点就是无损,叫less,他跟mp三或者是ac不同,它是不会破坏任何原有的音频的资讯。所以呢,它可以还原音乐的光盘的音制,所以他现在会被很多的软件和硬件的产品支持。其他的格式还有很多,这里就不再扩展了,在后续的实验里,我们会用到位mp3等格式的音频文件。
四、本节回顾
通过这一些的学习,我们学到了语音的基本的常识,然后是语音信号,最后是计算机里面的音频。
我们了解了语音的产生机制,语音是怎么样产生怎么样发出来的,它的物理的载体,语音的物理载体是声波,然后声波的一些特征的属性,比如音色,音调音高,音长,然后是语音和语言之间的关系。语音是人力语言的物质表达,是声音和语言的组合体,然后我们讨论的语音的信号,语音的信号就是声活的不行,了解了语音信号的一些特性,怎么样转换成波型,怎么样转换成数学的形式,数变成数字信号,变成数字信号之后,我们可以对这个信号的进行处理,从语音信号里面得到各种的信息,以及对这个语音信号进行加工。最后我们讲音频文件是因为计算机处理的时候,是以文件的形式来进行,我们介绍了他的一些参数,包括声道比特率,采样率,采样位数这样的概念。