智能语音交互产品介绍 | 学习笔记

简介: 快速学习 智能语音交互产品介绍

开发者学堂课程【阿里巴巴智能语音交互技术与应用智能语音交互产品介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/376/detail/4716


智能语音交互产品介绍


内容介绍

一、语音识别(ASP)

二、语音合成(NLP)

三、人机对话(TTS)


一、语音识别

语音识别,是把一个音频转成一个文字。

智能语音交互,是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品能听、会说、值你式的智能人机交互体验。

支持中文普通话(重口音)
支持部分方言
支持英文支持噪音环境下的语音识别
支持带背最音的语音识别
提供特定领域的识别模型,包括客服、金融、电商等
支持语言模型的快速定制

特别功能自定义热词

某些需要特殊出来的词汇用户,可以通过提交词汇列表的方式优化语音识别模型,如人名,产品名,业务特殊用于等

(1)录音文件识别

录音识别是将提前录音的文件,录下来再调服务识别成文本,主要应用在电话客服,和会议的录音,提供一个直接调用的服务接口,机器能够识别不同的角色。

提供灵活可制定的文本分析硬件,能支持实时文件分析,帮助企业检测客户服务质量,及时预警业务风险,发掘销售机会预警可能存在的风,以及相关销售机会的发掘

应用案例,淘宝,天猫,1688等的售后,售前客服质检,蚂蚁金服务质检阿里云售后服务质检合众人寿吉利汽车  UC  等的智能检验
提供将录音文件识别成文本的服务

RESTful  接口

机器自动分离不同话者(即将开放)
2)实时语音识别

实时的语音识别只主要用在法庭庭审,会议的实时直播,直接在 PPT 上投屏

提供格实时音最流识别成文本的服务 JavaSDK.C. SDK
3)一句话识别

实时的语音识别只主要用在法庭庭审,会议的实时直播,直接在 PPT 上投屏
提供将一分钟以内的短语音实时识别成文本的服务 Java Android. iOS SDK. C++ SDK


二、语音合成

提供将文本合成成语音的服务支持男声、女生
支持指定说话人声音定制
能够调节语调、语速
支持背景音乐设置
支持生僻字发音的调整

支持调节语速语调,音量等等的一些基础参数

应用案例,钉钉、阿里大于的语查服务的通知人由


三、人机对话

用户可以使用各种各样的方式,快速搭建自己的一个人机交互的机器人

用户可以在平台上快速构建自己的对话机器人

1ET 智能对话平台
a.单轮问答
业务知识库(已经开放)
机器人闲聊类问答(可定义性格)

业务类的知识库疑问一答形式,系统后面有模型训练,一句话进来的时候,基于业务这个知识库,进行一些答复
b.场景类多轮对话
特定对话直接选用如天气,电影,音乐类,导航类等
定义业务场景下的多轮对话
c.
聊天
机器自学的聊天对话

人机对话可以将,语音识别里的一句话识别,以及智能对话平台,调用文本进文本初,以及语音合成的接口,可以打造成一个语音对话的机器人。
工作流为,语音识别进入进行一个自然语言的理解,再利用对话管理,就会生成语音生成的模块,再进行  tts  语音接口

APP 案例
支付宝 APP
客服领域案例
蚂蚁金服95188

拨打电话95188,之后机器人会输出语音,欢迎致电支付宝,请简单描述您的问题就可以把自己的问题讲述给机器人,之后,机器人会作出回应,并输出解决方案

案例: Yun0S-小云
致力于做个人助理+,贯穿各个场景为用户提供助理服务。与普通的语音助手相比,体现在:
1.
更加懂你:通过用户账号体系的大数据分析带来更精准的信息和服务推送。

2.更加自然:打破指令式,模版式的交互,进一步接近人与人的人机交互体验。

3.更加深入:突破语音助手只停留在信息搜索的层面,更加注重于帮助用户充成实实在在的任务。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
机器学习/深度学习 自然语言处理 搜索推荐
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
智能语音交互基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。 目前已上线实时语音识别、一句话识别、录音文件识别、语音合成等多款产品,您可以在控制台页面进行试用,也可以通过API调用相关能力。
44705 4
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
|
自然语言处理 算法 人机交互
参与智能语音交互产品评测,赢神秘好礼🎁
写下你的使用体验,就有机会获得Redmi小米投影仪、价值超万元的【听悟免费试用】权益、阿里云开发者社区定制冲锋衣、语音资源包0.1折权益、阿里云定制抱枕等多重好礼!
参与智能语音交互产品评测,赢神秘好礼🎁
《阿里云产品手册2022-2023 版》——智能语音交互
《阿里云产品手册2022-2023 版》——智能语音交互
131 0
|
人工智能 语音技术 自然语言处理
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(1)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(1)
784 0
|
人工智能
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(2)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(2)
673 0
|
人工智能 Java 调度
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(3)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(3)
727 0
|
人工智能 Java 语音技术
《阿里云AI产品必知必会系列电子书》——智能语音交互——语音合成QuickStart使用教程
《阿里云AI产品必知必会系列电子书》——智能语音交互——语音合成QuickStart使用教程
910 0
|
人工智能
阿里云产品体系分为6大分类——人工智能——分为10种模块——智能语音交互
阿里云产品体系分为6大分类——人工智能——分为10种模块——智能语音交互自制脑图
231 0
|
机器学习/深度学习 自然语言处理 前端开发
智能语音交互自学习平台培训 | 学习笔记
简介:快速学习智能语音交互自学习平台培训
335 0
智能语音交互自学习平台培训 | 学习笔记
|
弹性计算 自然语言处理 机器人
智能语音交互-语音识别介绍 | 学习笔记
简介:快速学习智能语音交互-语音识别介绍
851 0
智能语音交互-语音识别介绍 | 学习笔记