开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):实验:智能语音技术简单实现】
课程地址:https://edu.aliyun.com/course/3112108/lesson/19287
实验:智能语音技术简单实现
内容介绍:
一、阿里云智能语音交互平台
二、一句话识别的简单实现
三、本章小节
一、阿里云智能语音交互平台
本次实验是智能语音技术的简单实现。将会用到阿里云智能语音交互平台。阿里云智能语音交互平台主要有三大项功能分别是语音识别,语音分析和语音合成。
1. 语音识别
语音识别使用的是阿里云的自研模型,这个模型摒弃了传统模型模块多,系统复杂的缺点。在客服、直播、会议、输入或者教育的交互识别场景,准确率会比传统的模型提升10%到30%。阿里云的语音识别有多产品形态,支持录音文件的识别,实时语音的识别,一句话识别。用户可自行上传数据,也可对语音识别进行深度的定制。在特殊的领域,特定的业务领域,可以提高识别的准确率。多语种支持也是阿里云的一个重要的特点,能够支持粤语四川话等20多种方言,支持英语,日语等十几种语种。
语音识别还可以对上传音频使用的语言进行语句级别的判定。
2. 语音分析
智能语音交互平台的第二大块内容是语音分析。自然的声纹识别算法能够通过解析一段语音,把提取到的音频特征跟注册的音频特征进行对比,从而实现对说话人的身份进行验证。
声音事件检测是可以通过一段声音来对环境音里面的事件类型进行检测分类。例如:音乐声哭声爆炸声之类。
性别识别,对上传的音频,知道说话人的性别,年龄阶段。
语种识别,可识别中文,英语,粤语或者其他的语言。
3. 语音合成
语音合成可以支持中英文的混合播报,还支持多语种和方言。支持字节级别的时间对齐,可用于视频配音的音频和字幕的时间对齐,以及虚拟形象的口型对齐。可以快速的进行动态参数调整,可以动态的去调整发音,语速音量,语调采样率等等。
通过语音和神经网络的结合,合成的语音,读音准确,韵律自然,声音的还原度高。
二、实验一句话识别的简单实现。
1、实验背景
一句话识别能够对一分钟以内的语音进行实时的识别。这种技术可以用于较短的语音交互场景,如语音搜索,语音指令,语音消息等。也可以集成在APP,智能家电,智能助手等产品中。
比如,开发用一语句话识别功能,在用户到达一个线下的消费场所的时候进行咨询,答疑业务引导,帮助用户去获得更好的消费体验。同时也能提高商家的服务效率。为商家节约人工服务的成本。
2、一句话识别的实验流程
首先准备阿里云账号,再在智能语音交互平台上分别找到一句话识别、采访能力,选择开通。开通之后API就可以调用了。阿里云的学习平台提供了交互式建模的学习环境,里面使用的是python的notebook环境,可以在平台界面清晰的看到代码。进入到平台之后,上传教学资源包。终端内进行解压,解压之后得到多段测试语音音频文件。可对其进行语音识别。经过调用之后,得到已经被转换文字的文本的内容,可通过对比来检查语音识别的准确度,错词率。
3、实验结果
实验用的是 method ,通过测试的 PCM 文件(上传的资料里面的语音),得到的运行结果可以看到识别出来的文字是什么,用时多少。通过对比检查语音识别的准确率。经过实验,得知语音识别的准确率较高,出错率小。
这个实验,也可以上传自己的录音上去调用,亲自体验语音的识别效果如何。
三、本章小结
通过本章的学习,了解到了:
1.智能语音技术的定义,研究任务,研究难点和应用场景。
2.语音的物理载体,特征属性,比如音色音调音,高音长;语音信号的概念特点和处理目的;信号处理的方式;计算机处理音频的方式,以及计算机音频参数(声道,比特率。音频采样率,采样位数等)
3.语音智能处理的常用技术,语音的降噪与增强技术的定义,作用,研究思路
4.语音识别技术的定义,原理
5.语音唤醒技术的定义,原理
6.语音合成技术的定义,原理
7.人机交互的方式的趋势,人机交互语言的优势和劣势
8.智能对话系统的定义,分类发展趋势,组成和实现的流程
9.阿里云的智能语音交互平台的用法,以及API调用的方法