智能语音技术的处理对象（二）-阿里云开发者社区

智能语音技术的处理对象（二）

2023-09-20 84

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

实时计算 Flink 版，5000CU*H 3个月

实时数仓Hologres，5000CU*H 100GB 3个月

简介： 智能语音技术的处理对象（二）

开发者学习笔记【阿里云人工智能工程师ACA认证（2023版）:智能语音技术的处理对象（二）】

课程地址：https://edu.aliyun.com/course/3112108/lesson/19284

智能语音技术的处理对象（二）

三、智能语音技术的处理对象

1、音频文件的参数介绍

前面讲的语音是什么，语音信号是什么？一段语音到被计算机处理，要录制成计算机里面的音频文件，对于计算机而言呢？它只是一段代码，那我们要如何去区分这段语音？

我们下面来介绍一下音频文件的参数，首先介绍这个声道在录制声音的时候，在不同的空间的位置相互独立的这个音频信号就是声道，就是声音的通道。声音录制时的音缘的数量，常见的音频的数据有单声道或者是双声道，双声道呢？有立体声，就是有两个声音的通道，单声道是比较原始的声音的复类的形式，早期的经常采用双声道，它有两个声源，这样的话，在回放的时候，人们就可以可以听到声音，根据左耳对声音产生的这种效益。声源的位置，所以说双声道听起来之后就有立体的这种感受了。这种会更有让不让这个听到的辩量会有这种山临奇境的感觉。其实除了单声道和双声道之外，在某些情况下，这个声导的这个信息可能是不需要的。在这个阿里云里面，除了录音文件识别以外的服务只支持单声道的语音数据，如果数据是双声道或者是其他需要先转换成单声道。

接下来是比特率。数据传输是单位时间传送的这个数据，位数据就叫比特率，也就是每秒的传输的速度。比特率越高，传送数据的速度就越快，总的来看，它的比特率越高，传送数去越快，它的声音的质量就越好。

接下来是音频采样率，它是指的是录音设备在一秒钟对声音信号的采样的次数，那它采产两者频率越高，声音的还原就越自然，声音就越保真。音频的采量位数，采样值或者是取样值，就是把采样样本的辅助量化，用来衡量声音波动变化的参数，或者是增卡的分辨率，这个数值越大，增辨率越高，发出声音的能力就越强，

2、音频编码

图片660.png

我们的计算机处于声音的时候，特别是语音，我们要把它记录下来。记录下来的时候怎么样对这个声音的信号进行编码的有很多的方式，这也是为什么大家看到很多声音的文件，它的这个文件的格式不一样？我们对声音的需求不一样，比如有的情况下，我们希望能够最大化的去真实的记录声音，但有的时候我们的要求没有那么高，反而是希望能够节约存储空间，能够在传输的时候速度会快一点，这样的话就导致了我们在对音频进行编码的时候的方式不一样。

在调用案例里，一个智能语音交互服务之前，我们需要确认，语音数据编码的格式是服务能够支持的。

下面我们介绍几种常见的编码的格式，首先是这个pcm叫脉冲编码调制，它是的，缩写pcm编码，它的最大的优点就是音制好，最大的缺点就是体积大，我们常见的cd就是采用了pcm编码，一张光盘的容量大概只能容纳72分钟的音乐信息。Vivo是非常常见的语音格式，是微软公司专门为windows开发的一种标准的音频文件，这种文件格式，它能记录各种单声到的或者是一体声的声音信息，还能保证声音不是真的mp3，mp3是非常常见的声音的文件各格式，在这个中的mp3文件上面，它的听感是接近于文件的。当然，在不同的应用场景下，应该调整合适的参数来达到更好的效果。Mp三这种的适的特点是，它的音质在128kb，每秒以上的表现是不错的，它的压缩比较高，大量的软件和硬件都支持。它的兼容性也好，它比较适用于那种满足高比特率和兼容性的一种音乐欣赏的场景。第四种叫ac，它的全称是coding ac，它是一种专门为声音素数据设计的文件压缩格式。它采用了全新的算法进行编码，更加的高效，更加的有性价比，用这种格式能够当人感觉声音的质量没有下降，但是，这个文件会变得更加的少，小苹果的这个ipod就会支持ac这种格式的音频文件，这种是一种类似于mp3的一种音频压缩的格式，但是，有一点叫特殊的是odg它是完全免费的，开放的，没有专利限制的。最后一种是flag，它的英文的全称是它译过来就是叫无损的音频压缩编码啊。你看名字就知道，它的最大的特点就是无损，叫less，他跟mp三或者是ac不同，它是不会破坏任何原有的音频的资讯。所以呢，它可以还原音乐的光盘的音制，所以他现在会被很多的软件和硬件的产品支持。其他的格式还有很多，这里就不再扩展了，在后续的实验里，我们会用到位mp3等格式的音频文件。

四、本节回顾

通过这一些的学习，我们学到了语音的基本的常识，然后是语音信号，最后是计算机里面的音频。
我们了解了语音的产生机制，语音是怎么样产生怎么样发出来的，它的物理的载体，语音的物理载体是声波，然后声波的一些特征的属性，比如音色，音调音高，音长，然后是语音和语言之间的关系。语音是人力语言的物质表达，是声音和语言的组合体，然后我们讨论的语音的信号，语音的信号就是声活的不行，了解了语音信号的一些特性，怎么样转换成波型，怎么样转换成数学的形式，数变成数字信号，变成数字信号之后，我们可以对这个信号的进行处理，从语音信号里面得到各种的信息，以及对这个语音信号进行加工。最后我们讲音频文件是因为计算机处理的时候，是以文件的形式来进行，我们介绍了他的一些参数，包括声道比特率，采样率，采样位数这样的概念。

智能语音技术的处理对象（二）

智能语音技术的处理对象（二）

三、智能语音技术的处理对象

四、本节回顾

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书