智能语音交互产品介绍

智能语音交互产品介绍 | 学习笔记

2022-10-29 602

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习智能语音交互产品介绍

开发者学堂课程【阿里巴巴智能语音交互技术与应用：智能语音交互产品介绍】学习笔记，与课程紧密联系，让用户快速学习知识。

内容介绍

一、语音识别(ASP)

二、语音合成(NLP)

三、人机对话(TTS)

语音识别，是把一个音频转成一个文字。

智能语音交互，是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、值你”式的智能人机交互体验。

支持中文普通话(重口音)
支持部分方言
支持英文支持噪音环境下的语音识别
支持带背最音的语音识别
提供特定领域的识别模型，包括客服、金融、电商等
支持语言模型的快速定制

特别功能自定义热词

某些需要特殊出来的词汇用户，可以通过提交词汇列表的方式优化语音识别模型，如人名，产品名，业务特殊用于等

（1）录音文件识别

录音识别是将提前录音的文件，录下来再调服务识别成文本，主要应用在电话客服，和会议的录音，提供一个直接调用的服务接口，机器能够识别不同的角色。

提供灵活可制定的文本分析硬件，能支持实时文件分析，帮助企业检测客户服务质量，及时预警业务风险，发掘销售机会预警可能存在的风，以及相关销售机会的发掘

应用案例，淘宝，天猫，1688等的售后，售前客服质检，蚂蚁金服务质检阿里云售后服务质检合众人寿吉利汽车 UC 等的智能检验
提供将录音文件识别成文本的服务

RESTful 接口

机器自动分离不同话者(即将开放)
（2）实时语音识别

实时的语音识别只主要用在法庭庭审，会议的实时直播，直接在 PPT 上投屏

提供格实时音最流识别成文本的服务 JavaSDK.C. SDK
（3）一句话识别

实时的语音识别只主要用在法庭庭审，会议的实时直播，直接在 PPT 上投屏
提供将一分钟以内的短语音实时识别成文本的服务 Java Android. iOS SDK. C++ SDK

提供将文本合成成语音的服务支持男声、女生
支持指定说话人声音定制
能够调节语调、语速
支持背景音乐设置
支持生僻字发音的调整

支持调节语速语调，音量等等的一些基础参数

应用案例，钉钉、阿里大于的语查服务的通知人由

用户可以使用各种各样的方式，快速搭建自己的一个人机交互的机器人

用户可以在平台上快速构建自己的对话机器人

（1）ET 智能对话平台
a.单轮问答
业务知识库（已经开放）
机器人闲聊类问答（可定义性格）

业务类的知识库疑问一答形式，系统后面有模型训练，一句话进来的时候，基于业务这个知识库，进行一些答复
b.场景类多轮对话
特定对话直接选用如天气，电影，音乐类，导航类等
定义业务场景下的多轮对话
c.聊天
机器自学的聊天对话

人机对话可以将，语音识别里的一句话识别，以及智能对话平台，调用文本进文本初，以及语音合成的接口，可以打造成一个语音对话的机器人。
工作流为，语音识别进入进行一个自然语言的理解，再利用对话管理，就会生成语音生成的模块，再进行 tts 语音接口

APP 案例
支付宝 APP
客服领域案例
蚂蚁金服95188

拨打电话95188，之后机器人会输出语音，“欢迎致电支付宝，请简单描述您的问题”就可以把自己的问题讲述给机器人，之后，机器人会作出回应，并输出解决方案

案例: Yun0S-小云
致力于做个人助理+，贯穿各个场景为用户提供助理服务。与普通的语音助手相比，“一”体现在：
1.更加懂你:通过用户账号体系的大数据分析带来更精准的信息和服务推送。

2.更加自然:打破指令式，模版式的交互，进一步接近人与人的人机交互体验。

3.更加深入:突破语音助手只停留在信息搜索的层面，更加注重于帮助用户充成实实在在的任务。

智能语音交互产品介绍 | 学习笔记