实验:智能语音技术简单实现

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: 实验:智能语音技术简单实现

开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):实验:智能语音技术简单实现】

课程地址https://edu.aliyun.com/course/3112108/lesson/19287

 

实验:智能语音技术简单实现

 

内容介绍:

一、阿里云智能语音交互平台

二、一句话识别的简单实现

三、本章小节

 

一、阿里云智能语音交互平台


本次实验是智能语音技术的简单实现。将会用到阿里云智能语音交互平台。阿里云智能语音交互平台主要有三大项功能分别是语音识别,语音分析和语音合成。

 图片680.png

1. 语音识别

语音识别使用的是阿里云的自研模型,这个模型摒弃了传统模型模块多,系统复杂的缺点。在客服、直播、会议、输入或者教育的交互识别场景,准确率会比传统的模型提升10%到30%。阿里云的语音识别有多产品形态,支持录音文件的识别,实时语音的识别,一句话识别。用户可自行上传数据,也可对语音识别进行深度的定制。在特殊的领域,特定的业务领域,可以提高识别的准确率。多语种支持也是阿里云的一个重要的特点,能够支持粤语四川话等20多种方言,支持英语,日语等十几种语种。

语音识别还可以对上传音频使用的语言进行语句级别的判定。


2. 语音分析

智能语音交互平台的第二大块内容是语音分析。自然的声纹识别算法能够通过解析一段语音,把提取到的音频特征跟注册的音频特征进行对比,从而实现对说话人的身份进行验证。

声音事件检测是可以通过一段声音来对环境音里面的事件类型进行检测分类。例如:音乐声哭声爆炸声之类。

性别识别,对上传的音频,知道说话人的性别,年龄阶段。

语种识别,可识别中文,英语,粤语或者其他的语言。


3. 语音合成

语音合成可以支持中英文的混合播报,还支持多语种和方言。支持字节级别的时间对齐,可用于视频配音的音频和字幕的时间对齐,以及虚拟形象的口型对齐。可以快速的进行动态参数调整,可以动态的去调整发音,语速音量,语调采样率等等。

通过语音和神经网络的结合,合成的语音,读音准确,韵律自然,声音的还原度高。


二、实验一句话识别的简单实现。


1、实验背景

一句话识别能够对一分钟以内的语音进行实时的识别。这种技术可以用于较短的语音交互场景,如语音搜索,语音指令,语音消息等。也可以集成在APP,智能家电,智能助手等产品中。
图片681.png比如,开发用一语句话识别功能,在用户到达一个线下的消费场所的时候进行咨询,答疑业务引导,帮助用户去获得更好的消费体验。同时也能提高商家的服务效率。为商家节约人工服务的成本。


2、一句话识别的实验流程

首先准备阿里云账号,再在智能语音交互平台上分别找到一句话识别、采访能力,选择开通。开通之后API就可以调用了。阿里云的学习平台提供了交互式建模的学习环境,里面使用的是python的notebook环境,可以在平台界面清晰的看到代码。进入到平台之后,上传教学资源包。终端内进行解压,解压之后得到多段测试语音音频文件。可对其进行语音识别。经过调用之后,得到已经被转换文字的文本的内容,可通过对比来检查语音识别的准确度,错词率。

图片682.png


3、实验结果

实验用的是 method ,通过测试的 PCM 文件(上传的资料里面的语音),得到的运行结果可以看到识别出来的文字是什么,用时多少。通过对比检查语音识别的准确率。经过实验,得知语音识别的准确率较高,出错率小。
图片683.png这个实验,也可以上传自己的录音上去调用,亲自体验语音的识别效果如何。

 

三、本章小结


通过本章的学习,了解到了:

1.智能语音技术的定义,研究任务,研究难点和应用场景。

2.语音的物理载体,特征属性,比如音色音调音,高音长;语音信号的概念特点和处理目的;信号处理的方式;计算机处理音频的方式,以及计算机音频参数(声道,比特率。音频采样率,采样位数等)

3.语音智能处理的常用技术,语音的降噪与增强技术的定义,作用,研究思路

4.语音识别技术的定义,原理

5.语音唤醒技术的定义,原理

6.语音合成技术的定义,原理

7.人机交互的方式的趋势,人机交互语言的优势和劣势

8.智能对话系统的定义,分类发展趋势,组成和实现的流程

9.阿里云的智能语音交互平台的用法,以及API调用的方法

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
9月前
|
机器学习/深度学习 前端开发 测试技术
智能语音技术的相关技术(二)
智能语音技术的相关技术(二)
160 0
|
9月前
|
机器学习/深度学习 人工智能 算法
智能语音技术的相关技术(一)
智能语音技术的相关技术(一)
109 0
|
9月前
|
编解码 人工智能 算法
智能语音技术的处理对象(二)
智能语音技术的处理对象(二)
53 0
|
9月前
|
存储 人工智能 数据可视化
智能语音技术的处理对象(一)
智能语音技术的处理对象(一)
94 0
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
智能语音技术概述
智能语音技术概述
155 0
|
机器学习/深度学习 自然语言处理 搜索推荐
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
智能语音交互基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。 目前已上线实时语音识别、一句话识别、录音文件识别、语音合成等多款产品,您可以在控制台页面进行试用,也可以通过API调用相关能力。
43847 4
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
|
人工智能 自然语言处理 搜索推荐
决定智能语音助手成败的,也许并只不是技术!
决定智能语音助手成败的,也许并只不是技术!
205 0
决定智能语音助手成败的,也许并只不是技术!
|
机器学习/深度学习 人工智能 达摩院
智能语音未来十年技术趋势预测
“ 对未来十年作出预测,绝对是一件冒险的事情。事实已经无数次证明,科技的发展往往远远超过人们的想象,且近年来各类技术进展的加速度,更有不断加快的趋势。站在一个全新十年的节点上,我们不妨回望过去,再试图展望未来。试着通过这些回望和展望,能够寻觅到技术新十年的蛛丝马迹。回望过去,在语音技术的应用和研究领域发生了许多有意义的标志性事件。”
智能语音未来十年技术趋势预测
|
人工智能 自然语言处理 语音技术