智能语音技术的处理对象(二)

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 智能语音技术的处理对象(二)

开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):智能语音技术的处理对象(二)】

课程地址https://edu.aliyun.com/course/3112108/lesson/19284

 

智能语音技术的处理对象(二)

 

三、智能语音技术的处理对象


1、音频文件的参数介绍

前面讲的语音是什么,语音信号是什么?一段语音到被计算机处理,要录制成计算机里面的音频文件,对于计算机而言呢?它只是一段代码,那我们要如何去区分这段语音?


我们下面来介绍一下音频文件的参数,首先介绍这个声道在录制声音的时候,在不同的空间的位置相互独立的这个音频信号就是声道,就是声音的通道。声音录制时的音缘的数量,常见的音频的数据有单声道或者是双声道,双声道呢?有立体声,就是有两个声音的通道,单声道是比较原始的声音的复类的形式,早期的经常采用双声道,它有两个声源,这样的话,在回放的时候,人们就可以可以听到声音,根据左耳对声音产生的这种效益。声源的位置,所以说双声道听起来之后就有立体的这种感受了。这种会更有让不让这个听到的辩量会有这种山临奇境的感觉。其实除了单声道和双声道之外,在某些情况下,这个声导的这个信息可能是不需要的。在这个阿里云里面,除了录音文件识别以外的服务只支持单声道的语音数据,如果数据是双声道或者是其他需要先转换成单声道。


接下来是比特率。数据传输是单位时间传送的这个数据,位数据就叫比特率,也就是每秒的传输的速度。比特率越高,传送数据的速度就越快,总的来看,它的比特率越高,传送数去越快,它的声音的质量就越好。


接下来是音频采样率,它是指的是录音设备在一秒钟对声音信号的采样的次数,那它采产两者频率越高,声音的还原就越自然,声音就越保真。音频的采量位数,采样值或者是取样值,就是把采样样本的辅助量化,用来衡量声音波动变化的参数,或者是增卡的分辨率,这个数值越大,增辨率越高,发出声音的能力就越强,

 

2、音频编码

图片660.png

我们的计算机处于声音的时候,特别是语音,我们要把它记录下来。记录下来的时候怎么样对这个声音的信号进行编码的有很多的方式,这也是为什么大家看到很多声音的文件,它的这个文件的格式不一样?我们对声音的需求不一样,比如有的情况下,我们希望能够最大化的去真实的记录声音,但有的时候我们的要求没有那么高,反而是希望能够节约存储空间,能够在传输的时候速度会快一点,这样的话就导致了我们在对音频进行编码的时候的方式不一样。


在调用案例里,一个智能语音交互服务之前,我们需要确认,语音数据编码的格式是服务能够支持的。


下面我们介绍几种常见的编码的格式,首先是这个pcm叫脉冲编码调制,它是的,缩写pcm编码,它的最大的优点就是音制好,最大的缺点就是体积大,我们常见的cd就是采用了pcm编码,一张光盘的容量大概只能容纳72分钟的音乐信息。Vivo是非常常见的语音格式,是微软公司专门为windows开发的一种标准的音频文件,这种文件格式,它能记录各种单声到的或者是一体声的声音信息,还能保证声音不是真的mp3,mp3是非常常见的声音的文件各格式,在这个中的mp3文件上面,它的听感是接近于文件的。当然,在不同的应用场景下,应该调整合适的参数来达到更好的效果。Mp三这种的适的特点是,它的音质在128kb,每秒以上的表现是不错的,它的压缩比较高,大量的软件和硬件都支持。它的兼容性也好,它比较适用于那种满足高比特率和兼容性的一种音乐欣赏的场景。第四种叫ac,它的全称是coding ac,它是一种专门为声音素数据设计的文件压缩格式。它采用了全新的算法进行编码,更加的高效,更加的有性价比,用这种格式能够当人感觉声音的质量没有下降,但是,这个文件会变得更加的少,小苹果的这个ipod就会支持ac这种格式的音频文件,这种是一种类似于mp3的一种音频压缩的格式,但是,有一点叫特殊的是odg它是完全免费的,开放的,没有专利限制的。最后一种是flag,它的英文的全称是它译过来就是叫无损的音频压缩编码啊。你看名字就知道,它的最大的特点就是无损,叫less,他跟mp三或者是ac不同,它是不会破坏任何原有的音频的资讯。所以呢,它可以还原音乐的光盘的音制,所以他现在会被很多的软件和硬件的产品支持。其他的格式还有很多,这里就不再扩展了,在后续的实验里,我们会用到位mp3等格式的音频文件。

 

四、本节回顾


通过这一些的学习,我们学到了语音的基本的常识,然后是语音信号,最后是计算机里面的音频。
我们了解了语音的产生机制,语音是怎么样产生怎么样发出来的,它的物理的载体,语音的物理载体是声波,然后声波的一些特征的属性,比如音色,音调音高,音长,然后是语音和语言之间的关系。语音是人力语言的物质表达,是声音和语言的组合体,然后我们讨论的语音的信号,语音的信号就是声活的不行,了解了语音信号的一些特性,怎么样转换成波型,怎么样转换成数学的形式,数变成数字信号,变成数字信号之后,我们可以对这个信号的进行处理,从语音信号里面得到各种的信息,以及对这个语音信号进行加工。最后我们讲音频文件是因为计算机处理的时候,是以文件的形式来进行,我们介绍了他的一些参数,包括声道比特率,采样率,采样位数这样的概念。

相关文章
|
4月前
|
传感器 数据采集 人工智能
【STM32+k210项目】基于AI技术智能语音台灯的设计(完整工程资料源码)
【STM32+k210项目】基于AI技术智能语音台灯的设计(完整工程资料源码)
146 1
|
机器学习/深度学习 人工智能 人机交互
实验:智能语音技术简单实现
实验:智能语音技术简单实现
231 0
|
机器学习/深度学习 前端开发 测试技术
智能语音技术的相关技术(二)
智能语音技术的相关技术(二)
291 0
|
机器学习/深度学习 人工智能 算法
智能语音技术的相关技术(一)
智能语音技术的相关技术(一)
189 0
|
存储 人工智能 数据可视化
智能语音技术的处理对象(一)
智能语音技术的处理对象(一)
129 0
|
机器学习/深度学习 人工智能 自然语言处理
智能语音技术概述
智能语音技术概述
357 0
|
机器学习/深度学习 自然语言处理 搜索推荐
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
智能语音交互基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。 目前已上线实时语音识别、一句话识别、录音文件识别、语音合成等多款产品,您可以在控制台页面进行试用,也可以通过API调用相关能力。
44406 4
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
|
人工智能 自然语言处理 搜索推荐
决定智能语音助手成败的,也许并只不是技术!
决定智能语音助手成败的,也许并只不是技术!
247 0
决定智能语音助手成败的,也许并只不是技术!
|
机器学习/深度学习 人工智能 达摩院
智能语音未来十年技术趋势预测
“ 对未来十年作出预测,绝对是一件冒险的事情。事实已经无数次证明,科技的发展往往远远超过人们的想象,且近年来各类技术进展的加速度,更有不断加快的趋势。站在一个全新十年的节点上,我们不妨回望过去,再试图展望未来。试着通过这些回望和展望,能够寻觅到技术新十年的蛛丝马迹。回望过去,在语音技术的应用和研究领域发生了许多有意义的标志性事件。”
智能语音未来十年技术趋势预测
《阿里云产品手册2022-2023 版》——智能语音交互
《阿里云产品手册2022-2023 版》——智能语音交互
107 0