华为ICT——第八章:语音处理理论与实践02

简介: 华为ICT——第八章:语音处理理论与实践02

语音信号预处理 - 加窗

⚫ 加窗:分帧后,每一帧的开始和结束都会出现间断。因此分割的帧越多,与原始信号的误差就越大, 加窗就是为了解决这个问题,使成帧后的信号变得连续,并且每一帧都会表现出周期函数的特性。

⚫ 不同的窗函数会影响到语音信号分析的结果。矩形窗平滑性较好,但波形细节丢失,并且会产生泄露 现象,而汉明窗可以有效缓解泄露现象,应用范围最为广泛。

语音信号分析及特征提取

语音特征 (1)

语音特征,类似于机器学习中的特征的重要性,当分析一个语音文件时,需要一些量可以很 好的反应语音的本质,以便于后续流程的使用。因此,语音特征的设计是语音处理中很重要 的一环。 语音特征是描述语音的核心信息,在语音模型构建中起重要作用。

语音特征 (2)

⚫ 特征提取方法一般有:

 线性预测系数(LPC)

 LPC倒谱系数(LPCC)

 线谱对参数(LSP)

 共振峰率(前三个共振峰)

 短时谱

 Mel频率倒谱系数(MFCC)

 感知线性预测(PLP)

语音信号分析 (1)

⚫狭义上语音信号分析不包括语音信号预处理的过程,包括对语音信号的降噪、平滑等预处理,但是通 常将这两个过程统一称为语音信号分析

⚫ 语音信号分析的重要性:  语音合成音质的好坏和语音识别率的高低,很大程度上取决于对语音信号分析的准确度和精度。  语音信号分析是语音合成、语音识别、语音增强、目标语音提取等技术的基础和前提,只有将语音的特征进行 了准确且有针对性的分析后,才能更好的支持对应的技术。对应的技术才能更好的用在不同的业务场景中。

语音信号分析 (2)

⚫ 对语音信号进行分析的方法有很多,要根据具体的需求来选取合适的分析方法,根据分析的 特征不同,大致可以分为以下几类:

 时域分析

 频域分析

 倒频域分析

 小波域分析

语音信号的时域分析

语音信号的时域分析就是分析和提取语音信号的时域参数。时域分析是最早使用也是应用最 广泛的一种分析方法(语音信号本身就是时域信号),通常用于语音分割、预处理、大分类 等最基本的参数分析和应用。有如下特点:

 物理意义明确,直观,可以获得一些语音中重要的参数;

 实现简单

语音信号的频域分析

⚫ 语音信号的频域分析就是分析和提取语音信号的频域参数。

语音特征

⚫ 在语音识别和语者识别方面最常用的语音特征就是梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,简称MFCC)。

语音识别

语音 - 文字

语音识别

⚫ 语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的技 术。

语音识别发展史

语音识别现状

⚫ 语音识别属于人工智能中的感知智能,其应用已经进入家电、通信、汽车、医疗、 家庭服务等各个领域。如:语音助手、机器人和智能音箱等。

语音识别的难点

⚫ 语音识别任务的难点:

 地域性;

 场景性;

 生理性。

语音识别任务分类 - 孤立词识别

⚫ 孤立词识别:语音处理发展前期是对少量的孤立词进行识别:

语音识别任务分类 - 连续词识别

连续词识别:在实际中少量孤立词识别不能满足实际的应用需求,大部分的需求需要对连续 的一句话进行识别,那么如果还是用少量孤立词识别算法的话存在问题:

 需要切分整个文件到孤立词,这个对于人工需求很大,且不能保证准确性,因为很多词之间的发音 是有粘连的。

传统语音识别任务处理流程:

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
3月前
|
人工智能
AI设计自己,代码造物主已来!UBC华人一作首提ADAS,数学能力暴涨25.9%
【9月更文挑战第15天】近年来,人工智能领域取得了显著进展,但智能体系统的设计仍需大量人力与专业知识。为解决这一问题,UBC研究人员提出了“自动智能体系统设计(ADAS)”新方法,通过基于代码的元智能体实现智能体系统的自动化设计与优化。实验结果表明,ADAS设计的智能体在多个领域中表现优异,尤其在阅读理解和数学任务上取得了显著提升。尽管如此,ADAS仍面临安全性、可扩展性和效率等挑战,需进一步研究解决。论文详情见链接:https://arxiv.org/pdf/2408.08435。
64 4
|
算法 语音技术
|
机器学习/深度学习
|
7月前
|
机器学习/深度学习 算法 语音技术
华为ICT——第八章:语音处理理论与实践01
华为ICT——第八章:语音处理理论与实践01
77 0
|
语音技术
|
机器学习/深度学习 存储 人工智能
华为十大发明公布:高效加法网络、多目标博弈智能驾驶获奖
华为十大发明公布:高效加法网络、多目标博弈智能驾驶获奖
170 0
|
机器学习/深度学习 人工智能 算法
南大周志华、俞扬、钱超最新力作:《演化学习:理论与算法进展》正式上线
梯度下降或最速下降法,是机器学习最为重要的模块之一。尤其是在深度学习时代,梯度下降已成为不可或缺的组成部分。但同时,梯度下降也限制了机器学习推广到更广泛的一些任务中,例如不可微的目标函数。这一缺陷,却正好能被本书的主题「演化学习」解决。
487 0
南大周志华、俞扬、钱超最新力作:《演化学习:理论与算法进展》正式上线
|
机器学习/深度学习 人工智能 自然语言处理
现实需求巨大,技术尚未成熟,学界与业界思维大碰撞
作为人工智能皇冠上的明珠,自然语言理解不断吸引着学术界与产业界的目光。然而,在这个极具挑战性领域,若干理论问题和技术难题尚未得到根本解决,而现实生活和社会中又面临着巨大的应用需求。如何通过学术界和产业界的共同努力,让其在实际应用中发挥更大的作用,在研究与应用的相互反馈中共同进步呢
3426 0
|
机器学习/深度学习 传感器 人工智能
AlphaGo背后这项核心技术,后来怎么样了?
近年来,深度学习(Deep Learning, DL)作为机器学习的一个重要研究领域,得到了长足的发展,为强化学习(Reinforcement Learning, RL)提供了强有力的支撑,使RL能够解决以前难以处理的问题,例如学习直接从像素玩视频游戏。

热门文章

最新文章