开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):智能语音技术的处理对象(一)】
课程地址:https://edu.aliyun.com/course/3112108/lesson/19284
智能语音技术的处理对象(一)
内容介绍
一、语音的基本常识
二、 智能语音技术的处理对象
三、 智能语音技术的处理对象
一、语音的基本常识
1、语音的产生
人是怎么样发生的呢?人的发生的器官声带在这里,人的声音是怎么发出来的?是肺部扑出的气流经过支气管到喉头后喉头中的声带开始颤动震动,然后产生声音,我们用口腔或者是鼻箱来控制发生的位置,声音就产生了。在所有的动态里面,人的语言系统应该是最复杂的。所以人的发声的能力也是非常的复杂,非常的幸运,还有一些知识。声音是通过声态的震动,声音是物体震动产生的,声波是通过空气或者是物体或者通过介质传播,然后被人的器官感受到波动,所以人听到声音也是感知到了这个波动,但人可以识别声波,它的频率在20赫字到两万赫兹之间,这是人能听到的声音的频率,再往高的频率就是超声波了,往低的频率就是次声波,这是语音的产生。
2、语音的物理载体及其特征属性
声音的传播是通过空气的震动进行的。那么语音的物理载体机制就是声波作为物理载体,当然会有很多属性。声波的属性分为以下4个音色,音调音高和音长,音色也叫音质,包含声音的谐振波部分,是区别声音的基本特质,比如同样的声音,小提琴发出的声音就不一样。这就是他们的因色的不同音调,音调是声波的频率,唐琴人说,降调声调这里说的就是音调。第三个是音高,音高是升波的强度或者是震动的幅度决定的,比如发出海豚音,就是很高的一种音高,最后一个是音长,音长就是发音的持续的时间,通俗一点说就是拉长音。
3、语音与语言
我们来解析一下语音和语言,他们也有关联,但是完全不是一回事。
语音的内涵,第一个语音是人类语言的物体表达。还有一种说法是语言的物质载体,是大家想一想,我们对某种语言的第一感知识是么?我们如果学习某种语言,首先要学什么?先要学语音,比如说英语的语音,日语的语音,汉语的语音,或者是普通话或者是方言的语音,什么叫物质表达?一个人他可能心里面有很多想说的话在心里,但是他没有说出来,没有表达出来,这个时候就没有形成语音,还有组织语言,但是没有表达出来,那文字就是如果他有心里有想法,然后他把想法什表达的写出来,但是,其实文字你可以认为只是语音语音的一种转换的形式。你可以认为文字是把语音转换了,然后写成了某种符号,所以说相对文字来说,语音才是最直接的记录人的思维活动,语音是语言的外部形式,或者说语音是语言的物质外壳,是人类语言的载体,这里讲到人的语音是人的发音器官发出的具有一定社会意义的声音,这句话也很人可以通过其他的形式发出声音对吧?但是,一定要是通过人的发音器官发出的才是语音啊。如果人去研究乐器而不是人的语音,那这里还强调了是具有一定社会意义的声音。那如果没有社会意义,比如说这个人他跟咳嗽了,或者说他被多角碰到一下,这种算不算语音的他没有社会意义,我们觉得是一定要发出的具有社会意义的声音才是音。语音是声音和语言的组合体,语音里面既有语言啊,也有声音,相同的声音,可以发出,求出不同的语言,那同样一段语言,可以有不同的声音去发出语音,把这两方面都包含。最后一句是语音,是一段携带语言信息的声音,这里面就强调了语音里面要携带有信息,语言信息。
接下来是音节的概念,什么是音节?
能够自然发出的,觉察到的最小的零单位,能够自然发出的觉察到的最小的运营单位,一个音节是由一个获得几个原因和辅音按照一定的规则来组织起来的。
在英语的发音里,英语单词发音的时候,是根据这个字母的拼凑进行发音,这几个字母拼凑起来叫一个音节,比如说这个单词red,这是划分成两个音节,还有单词是p,那么s。 P是三个音节,汉语的发音一般来说是一个字一个音节,一个字一个音节,比如说语音,这两个字就是语音。两个音节,这是语音的单位,音节是语音的单位。
二、智能语音技术的处理对象
1、语音信号的介绍
人类通过语音讲交流,一个人张开嘴把发出声音,这个声音我们前面所说的通过震动然后传播另外一个人,他耳朵能够收集采集到这种震动,然后把它解释,翻译然后就收到了。听到了我们说的话,这个信号就通过空气震动这个能量就传过去了,对方就听到了声音,我们就能够快速的彼此的沟通了,那语音是人类交流的这种方式,也就是说,我们说话主要目的是什么,是交流,人类交流的发生形式,那根本的目的是什么,就是说话的人和听的人之间的信息的传递好,我们现在要做的事情是怎么样把语音做当做信号去处理?怎么样,把语音采集,然后把它保存,把它传播,再把它呈现出来,或者叫播放出来,能因为语音传播出去的时候,靠的是什么,是空气的震动。
当我们通过空气来传播声音的时候,靠的是震动,我们是不是把这个空气的震动这个声波的波形把它记录下来,语音的信号记录下来的。这个模拟的信号可能像下面的这个图所是可能长的,这个图里面记录的声音的,语音的这个声波波形是这样,开始的时候,这个声波是非常的平稳的,非常平稳的一段,然后后来在说话的过程中,这个声波发生了比较大的变化。这个非常明显,所以我们这里说语音信号是本身是非常不平稳的,信号背景的声音是非常平稳的,语音是非平稳的,是短时的,有一些录音的软件或者说音乐的软件,它会把这个声波以一种可视化的方式呈现出来,你就能看到有语音的时候,那个声波的种,像是发生很烈的波动的,这种信号的采集是可以有模拟的形式的,也有数字的形式的,那早期的录音机,它都是采集人类的语音的信息的模拟的形式,用这种方式去采集声音,比如说很早期的那种,就教的那种那种唱片,其实就是用模拟的形式去进录声音的。
2、语音信号的特点
但是现在觉着技术的发展,大部分的信号都是采用数字形式,语音的信号,它有数字的形式给我模拟的形式。一般用麦克风麦克风去采集音信号,采集语音信号之后,可能要把它转换成成电子的波型麦克风。采集信号一般要经过采样或者是ad转换,魔术转换这种方式把模拟信号转换成数字信号,一般是转换成这个数字信号,然后对数字信号可以有很多的处理的方式,比如说分针架窗,滤波等等。
把这个模拟信号变成数字信号之后,就很方便的对这个信号进行存储,进行处理,进行传输,那在传输的过程中可以再进行转换,把数字信号的转换成模拟信号,由扬声器或者是耳机把这个声音再换回升取的方式,当播放到后来之人就可以听到了,所以语音信号呢?它是一个可逆的过程。采集信号,采集完把模拟信号转化成数字信号,把它存储起来,又可以由量声器再播放出来,再转换。
3、语音信号处理
我们前面也讲的语音是一种信号。我们把语音当成信号去处理,处理的过程中,可能将语音信号转换成为另一种隐信号,通过这个过
程来接释语音信号的不种数学或者是实质的限制,并且可以进行一些适当的处理,比如这个信号弱小的时候,可以对它进行放大。造成的时候,可预波,可以调制或者协调,可以均匀衡,语音信号处理的的目的,首先要理解语音是一种交流的手段。把语音转换成数字信号的时候,能看到这信号,这就是用来交流的。你对它进行人信号处理之后,就有利于它的传播和复制,就是把它当成信号去传播和复制,那么对于语音这种信号进行分析,可以自动识别和提听提取信息,就是识别语音和从语音里面提取信息出来,那语音这种信号还比较特别,处理完之后可以发现说访者的一些生理的特征。