浅谈智能语音交互

简介: 浅谈智能语音交互相关内容以及功能体验、感受以及落地实践反馈

智能语音交互

在说到智能语音交互时,那么首先需要了解一下什么是智能语音交互以及有什么潜在的应用场景。

什么是智能语音交互

什么是智能语音交互呢?智能语音交互(Intelligent Speech Interaction)就是你所理解的基于语音识别、语音合成、自然语言理解等技术,对于企业来说适用于智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,可以应用在金融、司法、电商等多个领域。可以说不管是功能性还是应用场景,智能语音交互产品都是大有用武之地的。

开通服务

智能语音交互官方网址:https://ai.aliyun.com/nls

image.png

点击【开通并购买】跳转页面

image.png

勾选协议并点击【立即开通】,开通之后打开智能语音交互控制台

image.png

至此智能语音交互服务开通成功。开通成功后就可以进入下面的操作了

创建项目、配置

创建项目

点击【全部项目】菜单,在列表点击【创建项目】输入项目名称

image.png

选择项目类型后,根据需要补充项目场景描述后点击确定。项目创建完成后

配置项目

1.语音识别配置

image.png

项目创建完成之后进入项目配置页面,首先配置语音识别,点击【修改配置】

image.png

在语音识别配置页面,由于我将要识别的语音文件是电话语音,所以我这里选择【电话】tab,选中【中文普通话 (识音石 V1 - 端到端模型)】点击右上角【确认使用】完成语音识别配置。

2.语音合成配置

点击语音合成的【修改配置】

image.png

这里我选择客服下的【艾悦】格式选择mp3点击【确认使用】完成语音合成的配置,

项目测试

最后开始测试效果

这里我先来测试语音识别效果,这里我录了一个页面视频,放在了百度云盘上面链接:https://pan.baidu.com/s/1dXyFVjLbkRBWHKMGwJiJgA?pwd=ozzm

提取码:ozzm  感兴趣的可以看一下识别效果,基本电话内容识别的没有问题,有一些相关业务名词识别的不是太准确

image.png

根据官方文档的描述,在语音识别服务中,如果您的业务领域有部分词汇默认识别效果不够好,可以考虑使用热词功能,将这些词添加到词表从而改善识别结果,于是添加了相关热词

image.png

部分短语词语识别效果有改善,整体效果有提升。

下面我们再来测试一下语音合成效果

image.png

点击下载按钮下载音频到本地,这里是我生成的音频地址:链接:https://pan.baidu.com/s/16oECC217LZU8FivU5RhudQ?pwd=guo5

提取码:guo5  音频内容及语音语速很清晰,效果很好。至此控制台中涉及到智能语音交互的功能已经体验完成了,那么下面我将会根据当前公司需求场景及体验中的感受提一点个人的小反馈。

体验反馈

关于智能语音交互,个人根据公司所需的业务场景进行体验,并没有体验全部的内容,就个人体验的内容来看,说一下体验感受

产品体验建议

1.关于语音识别功能,这里由于是台式机,主要体验了上传音频文件语音识别,语音内容识别度很高,只是有一些专有的业务名词或者人物名词识别的不太准确,文章中我也标出了,后来查阅了智能语音交互官方文档,增加了【热词】,希望可以通过热词来改善识别效果,我增加的热词有

image.png

但是针对识别中专有名词增加的热词,在语音识别的音频识别中并没有体现出来,识别效果没有变化,这点比较疑惑?

2.关于语音分析,官方文档中有语音分析相关接口的说明内容,但是在智能语音交互控制台并没有语音分析相关的功能,希望后续可以增加语音分析的控制台功能,这样可以更好的体验智能语音分析这块的业务功能是否能达到落地的标准。

产品落地场景

现在比较常用的客服管理系统CRM,智能语音交互的很多产品功能都可以在CRM系统中发挥用武之地。

1.对于语音识别,现在公司CRM系统管理者通过听取一线客服通话录音的方式来判断客服服务的专业、贴心等,以及判断通话中应答的问题,做好后续改进等,这样的话作为管理者每天需要听取的录音太多且耗时,引入语音识别之后,可以将客服语音文件直接转化成文字,对于2min的语音文件,语音识别成文字之后10s内就可以看完了,对应的对话中的问题也就一目了然,提高效率,节约成本。

2.对于语音合成,现在公司CRM一线客服在接线前的问候语一般是提前录好的人工语音,这里可以通过语音合成功能直接将文字内容转化成语音内容,而不是每次需要更换问候语就要专业设备再次人工录音,省时省力节省成本。

3.对于语音分析,可以帮助CRM一线客服快速识别通话人的性别,年龄段,从而更好更快的提供针对性的服务,提高业务成单率,提高公司业绩;同样对于110 120接警员来说也可以快速得到通话人的性别年龄信息,便于更好的为通话人提供帮助。

4.对于客服智能质检,现在公司CRM系统并没有这一块功能,但是有极大的需要,因为在大量电话服务中,管理者即便是通过语音识别将录音记录转化为文字来把关,工作量太大,还是不能及时的把控坐席出现违规或服务风险时的风险,造成客户及公司的损失;目前来看不管是智能语音交互控制台功能还是文档介绍都没有这块的内容,只在智能语音交互的官网见到了,希望可以尽快提供控制台功能模块和SDK供开发者调用测试,加急加急加急。

5.对于业务电话内容分析,对于公司CRM系统可能并没有需要,毕竟学员只能在公司官网购买课程,但是对于售房或者租房性质的中介却很有必要,可以通过对电话内容分析及时把控保证所有的成交都是通过公司平台,保证公司利益,这个功能也是在官网看到,希望可以尽快提供控制台功能模块和SDK供开发者调用测试。

6.最后说一点,希望智能语音交互官方文档可以增加一个实验室链接,在实验室中可以体验全部的功能,根据效果决定来引入公司CRM系统的必要性。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
自然语言处理 语音技术 开发者
开源上新|FunASR多语言离线文件转写软件包
开源上新|FunASR多语言离线文件转写软件包
|
8月前
|
API 开发工具 开发者
HarmonyOS NEXT实战:拨打电话
本课程介绍如何在HarmonyOS SDK中使用Telephony Kit实现拨打电话功能。通过CallPhoneDemoPage示例,讲解如何输入电话号码并调用makeCall接口拨号,涉及call模块的使用及设备通话能力检测。
8010 0
|
存储 安全 测试技术
【Go语言精进之路】构建高效Go程序:了解map实现原理并高效使用
【Go语言精进之路】构建高效Go程序:了解map实现原理并高效使用
362 3
|
12月前
|
关系型数据库 MySQL 分布式数据库
客户说|太美医疗选择阿里云PolarDB,助力医药研发数据安全应用
客户说|太美医疗选择阿里云PolarDB,助力医药研发数据安全应用
443 1
|
Python
PyCharm在用Django开发时debug模式启动失败显示can't find '__main__' module的解决方法
初次用Django开发web应用,在试图用Pycharm进行debug的时候,出现了一个奇怪的问题。以正常模式启动或者在terminal启动都没有问题。但是以debug模式启动时,显示`can't find '__main__' module”`报错。在网上找了很久都没有看到解决方法,最后在某乎上看到一篇文章,在启动时加上`--noreload`参数,既可以debug模式启动。
589 0
|
自然语言处理 并行计算 API
Qwen模型应用:微调与部署实践
Qwen模型应用:微调与部署实践
2995 0
|
JavaScript Java API
30.【TypeScript 教程】Reflect Metadata
30.【TypeScript 教程】Reflect Metadata
388 4
|
自然语言处理 机器人 人机交互
智能语音交互概述(一)
智能语音交互概述(一)
1598 0
|
自然语言处理 语音技术 Docker
开源上新|FunASR离线文件转写软件包3.0
开源上新|FunASR离线文件转写软件包3.0
|
JavaScript 编译器
TypeScript(十三)声明合并
TypeScript(十三)声明合并
543 0

热门文章

最新文章