语音信号预处理 - 加窗
⚫ 加窗:分帧后,每一帧的开始和结束都会出现间断。因此分割的帧越多,与原始信号的误差就越大, 加窗就是为了解决这个问题,使成帧后的信号变得连续,并且每一帧都会表现出周期函数的特性。
⚫ 不同的窗函数会影响到语音信号分析的结果。矩形窗平滑性较好,但波形细节丢失,并且会产生泄露 现象,而汉明窗可以有效缓解泄露现象,应用范围最为广泛。
语音信号分析及特征提取
语音特征 (1)
语音特征,类似于机器学习中的特征的重要性,当分析一个语音文件时,需要一些量可以很 好的反应语音的本质,以便于后续流程的使用。因此,语音特征的设计是语音处理中很重要 的一环。 语音特征是描述语音的核心信息,在语音模型构建中起重要作用。
语音特征 (2)
⚫ 特征提取方法一般有:
线性预测系数(LPC)
LPC倒谱系数(LPCC)
线谱对参数(LSP)
共振峰率(前三个共振峰)
短时谱
Mel频率倒谱系数(MFCC)
感知线性预测(PLP)
语音信号分析 (1)
⚫狭义上语音信号分析不包括语音信号预处理的过程,包括对语音信号的降噪、平滑等预处理,但是通 常将这两个过程统一称为语音信号分析
⚫ 语音信号分析的重要性: 语音合成音质的好坏和语音识别率的高低,很大程度上取决于对语音信号分析的准确度和精度。 语音信号分析是语音合成、语音识别、语音增强、目标语音提取等技术的基础和前提,只有将语音的特征进行 了准确且有针对性的分析后,才能更好的支持对应的技术。对应的技术才能更好的用在不同的业务场景中。
语音信号分析 (2)
⚫ 对语音信号进行分析的方法有很多,要根据具体的需求来选取合适的分析方法,根据分析的 特征不同,大致可以分为以下几类:
时域分析
频域分析
倒频域分析
小波域分析
语音信号的时域分析
语音信号的时域分析就是分析和提取语音信号的时域参数。时域分析是最早使用也是应用最 广泛的一种分析方法(语音信号本身就是时域信号),通常用于语音分割、预处理、大分类 等最基本的参数分析和应用。有如下特点:
物理意义明确,直观,可以获得一些语音中重要的参数;
实现简单
语音信号的频域分析
⚫ 语音信号的频域分析就是分析和提取语音信号的频域参数。
语音特征
⚫ 在语音识别和语者识别方面最常用的语音特征就是梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,简称MFCC)。
语音识别
语音 - 文字
语音识别
⚫ 语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的技 术。
语音识别发展史
语音识别现状
⚫ 语音识别属于人工智能中的感知智能,其应用已经进入家电、通信、汽车、医疗、 家庭服务等各个领域。如:语音助手、机器人和智能音箱等。
语音识别的难点
⚫ 语音识别任务的难点:
地域性;
场景性;
生理性。
语音识别任务分类 - 孤立词识别
⚫ 孤立词识别:语音处理发展前期是对少量的孤立词进行识别:
语音识别任务分类 - 连续词识别
连续词识别:在实际中少量孤立词识别不能满足实际的应用需求,大部分的需求需要对连续 的一句话进行识别,那么如果还是用少量孤立词识别算法的话存在问题:
需要切分整个文件到孤立词,这个对于人工需求很大,且不能保证准确性,因为很多词之间的发音 是有粘连的。
传统语音识别任务处理流程: