智能语音技术的相关技术(二)

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 智能语音技术的相关技术(二)

开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):智能语音技术的相关技术(二)】

课程地址https://edu.aliyun.com/course/3112108/lesson/19285

 

智能语音技术的相关技术(二)

 

三、语音唤醒技术介绍


1、语音唤醒技术的定义

语音唤醒技术,它其实是语音识别任务的一个分支,它有叫关键词检测Kws,keyword。语音唤醒技术指的是在一串语音流里面预先检测出预先定义的激活词或者是关键词。这个过程并不需要给所有的语音进行识别,这种技术是单手机智能音箱是他们能够拥有语音交互能力的基础,除了我们画出来的像手机,智能音箱这种可能。还有机器人,智能家居,还有车载的设备和端穿戴的设备等等。比如天猫精灵的环境键词就是天猫灵,语音唤醒技术其实很容易理解,就是当你说出这个唤醒词之后,你的设备就被你叫醒了有点像咒语啊,有点像阿里巴巴十大道里面的个芝麻,这个门就打开了。虽然它是语音识别任务的一个分支,但实际上它他对于这个语音识别的准确率还有一些使用场景的要求是不同的,所以说语音唤醒技术呢,会单独的拿出来解释,

 

1、语音唤醒模型的实现流程。

语音唤醒模型的实现流程语音唤醒能力,它主要依赖于语音唤醒模型的支持,这也是语音唤醒技术的核心。
图片667.png
一般的是,内语音唤醒模型,大概需要4个步骤,训练的流程如图,首先第一步是要定义唤醒词,定义唤醒词有下面几个要求,或者说几个原则,首先第一个是易唤醒,你的定义的唤醒词不能太长,然后是要低唤醒这个低物唤性的,要求你的唤醒词也不能太短,也不能是太常见的发音,还要跟其他很容易发出的音,避免出现重构的情况,要不然就会出现频繁的勿唤醒,可能没有真的想去叫醒他,他就一直会启动被唤醒,所以一般这个唤醒词都定义你在两三个词,三四个字,三四个音节。第三个原则是品牌性,这个唤醒词一般会跟你的品牌有关系,比如说天猫的产品都叫天猫精灵。你喊他的说候,天猫精灵,比如说高德地图,第4个原则是一记一读,一读就叫就好,说了一记,也很重要,就像那个台门语一样,没有记住的话,就不用打开了。定义好了,唤醒词之后,接下来要收集发音的,收集这个发音的数据一定要注意下面两点。


一个是发音的清晰程度,一个是收集,要收集相近的音件,从理论上来说是发音的人越多,发音的场景越丰富,那它唤醒唤醒的效果就会越好,收体的时候要考虑发音的清晰程度,有时候甚至要把相细的音节也放到训练模型,防止用户因为发音的问题导致无法唤醒。如果用果用户的群体非常庞大,有很多人是使用方言的,那么也要考虑这个唤像词收集,它的方言的发音。在收集准备完数据之后,就可以构建模型了,就开始使用这些数据进行训练,这个时候我们会使用到深度学习的算法。经过训练得到这个模型之后,就可以开始测试,测试通过,然后就可以上线,那么在使用的过程中还可能进行迭代,测试的时候,一般会分为性能测试和效果测试,性能测试,包括响应时间,工耗并发。用户可能会更关注效果测试,具体的效果测试会考虑唤醒率啊,勿换率。理解起来也理解起来也很简单,唤醒率就是我在呼唤它的时候有多少情况下是能把它唤醒的。呼唤率就是这种指标,这种叫唤醒的性能,那如果语音唤醒模型正式上线了之后,还可还是可以继续收集用户的唤醒数据。然后重复训练复迭代,唤醒模型的效果就会越来越好,会不断的得到提升。以上就是语音唤醒模型的实现流程几个阶段先定义,然后收集数据进行学习训练,训练完之后,进行测试和迭代。


四、智能语音技术的相关技术


1、语音合成技术的定义

语音合成技术的定义,什么是语音合成技术?
图片668.png是一种通过机械的,电子的方法产生人造语音的技术。这里合成就是把这个声音造出来。这种技术就叫文语转换。Tt s就是text tt s,因为我们大部分的时候输入的都是文本,语音合成针对的是怎么样把文本转换成相应的语音,我们希望能够语音合成技术,能够把任意输入的文本都能转换成语音,可以将基本语音信息数字化,并利用计算机系统仿真出人类的声音,比如说这里输入的文字是文本,

那经过语音合成技术之后呢?希望能输出音频。这个过程有点像我们人看到之后去读,语音合成技术跟人去读是很类似的,所以有时候把语音合成技术,去分成语言分析的部分,或者叫前端部分和后端部分。

 

2、语音合成技术的原理——传统语音合成
我们来研究一下语音合成技术的原理,我们来看一下语音合成技术里面的传统的语音合成的方式,传统的语音合成分成两个部分,一部分是前面的,语言分析部分,然后是升学系统部分。
图片669.png拿到文本之后,我们先要做语言分析,语言分析是根据输入的文字信息进行分析生成的,叫语言学规格书,这个生成语言学规格书,这个主要有以下的阶段,输入文本,然后句子结构分析文本,政策文本转因素及韵律预测。升学系统部分是根据前面语言分析部分得到的结果,然后用一定的方法去生成语音模型,但是目前这个部分能够仍然需要人工的界定,人工可以来挑选规则和参数,这个过程。语言分析分部分,其实跟我们看到一段文字把它读出来是一样的过程,我们看到文字之后,一样也要分析句子是怎么样的,文本是怎么拆分,比如说怎么分词,然后该想上该怎么读出来。在通过发生,通过控制你的这个发生的机官发声音发出来,传统的语音合成系统都是非常复杂的系统,比如说前端,我们叫语言分析部分是前端,前端需要很强的语言学的背景,并且不同语言的语言学的知识差别还非常明显,因此可能需要特定的专家的支持,那后端的模块里面的参数,它是对语音的发送机理要有一定的的了解,由于传统的参数模型在建模是它存在信息损失,限制了合成语音的表现力的提升,而后端的这个拼接系统他对语音数据库的要求又非常高,需要人工介入,整体上来说,这个传统的语音合成已经发展好多年了,现在的基础也算是很成熟,有一些接的这个配音已经达到了能够以假论真的程度和用文本去合成的语音,可能不注意的话,已经听不出来是用语音合成技术做出来的。

 

3、语音合成技术的原理——端到端语音合成

下面我们来谈一下端到端语音合成,传统的语音合成技术都是基于拼接和参数合成的的技术,它在效果上跟真人的这种语言的自然度还是有一点差距的,效果已经到了上线,它在实现上也比较依赖于复杂的流水线,也能看到它的成本非常高,然后为了解决传统语音合成的弊端,促进了我们现在要说的端到端语音合成的出现。研究者本人希望能够使这个合成系统能够尽量的简化,减少人工干预对语言写相关背景知识的要求。所谓端到端,其实就是直接从字符文本来合成语音这种方式打破了那以前那种各个传统组件之间的壁垒。这种方式,它是从文本的文本到声音文本到这个音频到声音。
在这个文本声音配备的推配对的这个字符集上,完全的随机的来从头训练。
从论文来看,它的这个合成的效果是比传统的方法要好的。它的这种方式就降低了对语言学知识的要求,然后很容易在不同语种上进行复制,还可以批量的实现更多一种的合成系统,并且很有意思的是,这种端到端语音合成系统还表现出强大的发音风格和韵律表现力,说端到端语音合成这么多的优点,但是它也存在一点问题,它的灵活性会降低,比如说不能对生存的语音进行调优。

 

五、本节回顾


本节回顾通过本节的学习,我们学习到了语音降噪与增强,云音降噪,从带有噪声的语音信号里面去提取出来云信号一直噪声,降低噪声的干扰,云音识别云声识别就是让机器识别和理解把语音性信号转换成相应的文本或者是命令。
语音唤醒检测出预先定义的这个激活词关键词,它不是对所有的语音进行识别,比如说天猫精灵语音合成技术,语音合成就是将基本的语音信息数字化,然后让计算机模仿出人类的声音。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
10天前
|
机器学习/深度学习 算法 人机交互
智能语音识别技术的最新进展与未来趋势####
【10月更文挑战第21天】 在当今这个信息爆炸的时代,人机交互方式正经历着前所未有的变革。本文深入探讨了智能语音识别技术的前沿动态,从深度学习模型的创新应用到跨语言、跨领域的适应性增强,揭示了该领域如何不断突破技术壁垒,提升用户体验的真实案例与数据支撑。通过对比分析当前主流算法的性能差异,本文旨在为研究者和开发者提供一幅清晰的技术演进蓝图,同时展望了多模态融合、情感识别等新兴方向的广阔前景。 ####
52 7
|
21天前
|
机器学习/深度学习 存储 人工智能
智能语音识别技术的深度剖析与应用前景####
本文深入探讨了智能语音识别技术的技术原理、关键技术突破及广泛应用场景,通过具体实例展现了该技术如何深刻改变我们的日常生活和工作方式。文章还分析了当前面临的挑战与未来发展趋势,为读者提供了一幅全面而深入的智能语音识别技术图景。 ####
|
23天前
|
机器学习/深度学习 搜索推荐 语音技术
智能语音识别技术在智能家居中的应用与挑战####
本文深入探讨了智能语音识别技术的基本原理、关键技术环节,以及其在智能家居领域的广泛应用现状。通过分析当前面临的主要挑战,如环境噪音干扰、方言及口音识别难题等,文章进一步展望了未来发展趋势,包括技术融合创新、个性化服务定制及安全隐私保护的加强。本文旨在为读者提供一个关于智能语音识别技术在智能家居中应用的全面视角,同时激发对该领域未来发展方向的思考。 ####
66 6
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
智能语音识别技术在多语言环境中的应用与挑战####
随着全球化的不断推进,跨语言交流的需求日益增长,智能语音识别技术成为连接不同语言文化的桥梁。本文旨在探索该技术在多语言环境中的应用现状、面临的挑战及未来发展趋势,通过深入分析技术瓶颈与创新策略,为促进全球无障碍沟通提供新视角。 ####
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
智能语音识别技术的现状与未来发展趋势####
本文旨在探讨智能语音识别技术的发展历程、当前主要技术特点、面临的挑战以及未来的发展趋势。通过综述该领域的最新研究进展和应用实例,本文为读者提供了一个关于智能语音识别技术的全面概览,并展望了其在未来可能的发展方向。 ####
|
1月前
|
存储 自然语言处理 搜索推荐
智能语音识别技术在医疗健康领域的深度应用与前景####
本文深入探讨了智能语音识别技术在医疗健康领域的多维度应用,从电子病历的高效录入到远程诊疗的无缝对接,再到患者教育与健康管理的个性化服务,展现了该技术如何显著提升医疗服务效率与质量。通过分析典型应用场景、挑战及解决方案,本文揭示了智能语音识别技术在推动医疗行业智能化转型中的关键作用,并展望了其未来发展趋势与广阔前景。 ####
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
智能语音识别技术在多语言环境下的挑战与优化策略###
随着全球化的加速推进,智能语音识别技术作为人机交互的关键一环,其跨语言适应性成为了研究热点。本文深入探讨了智能语音识别技术在多语言环境下面临的挑战,包括口音差异、词汇多样性、语法结构复杂性等,并提出了相应的优化策略。通过对比分析不同算法和技术路线,本文旨在为提升智能语音识别系统的跨语言性能提供理论依据和实践指导。 ###
|
1月前
|
机器学习/深度学习 算法 语音技术
智能语音识别技术在医疗健康领域的应用与挑战####
本文深入探讨了智能语音识别技术(Intelligent Speech Recognition, ISR)在医疗健康领域的现状、应用实例及面临的主要挑战。通过分析ISR技术的基本原理,结合其在电子病历记录、远程医疗咨询、患者监护及健康管理等方面的实际应用案例,揭示了该技术如何提升医疗服务效率、改善医患沟通并促进个性化医疗的发展。同时,文章也指出了数据隐私保护、方言与口音识别难题、技术准确性及用户接受度等关键挑战,为未来研究和技术优化提供了方向。 ####
|
1月前
|
人工智能 算法 语音技术
智能语音识别技术:原理、应用与挑战####
本文深入浅出地探讨了智能语音识别技术的基本原理,从声学模型到语言模型的构建过程,揭示了其背后的复杂算法。同时,文章详细阐述了该技术在智能家居、客户服务、无障碍技术等领域的广泛应用,并指出了当前面临的主要挑战,包括噪声干扰、方言差异及数据隐私等问题,为读者提供了对这一前沿技术领域的全面了解。 ####
|
1月前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音识别技术的现状与未来发展趋势####
【10月更文挑战第29天】 本文深入探讨了智能语音识别技术的发展历程、当前主要技术特点、面临的挑战及未来发展趋势。通过综述国内外最新研究成果,分析了深度学习在语音识别领域的应用现状,并展望了多模态融合、端到端建模等前沿技术的潜在影响。文章还讨论了隐私保护、数据安全等问题对技术发展的影响,以及跨语言、跨文化适应性的研究方向。 ####