阿里云
为了无法计算的价值
打开APP
阿里云APP内打开
学习中心> 阿里巴巴智能语音交互技术与应用> 正文

阿里巴巴智能语音交互技术与应用

7课时 |
6976人已学 |
免费
课程介绍

智能语音交互,是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等。

本课程主要讲解智能语音相关技术,包括语音识别、人机交互、语音合成等。

 

人工智能与智能语音概述

内容介绍:

一、智能化从语音交互开始
二、背后的核心技术
 
一、智能化从语音交互开始

(1)数据智能时代正在来临

互联网的内容向服务化、垂直化、个性化、智能化变迁。

例如从最开始的广泛搜索到各种垂直的音乐、视频类型的服务,搜索推荐的内容都是千人千面、个性化的内容。

(2)数据驱动智能化深入方方面面

在工业、智能交通、水利等方面都能广泛应用大数据使得服务得到智能化。

这一轮是在云计算、大数据与人工智能技术来推动的。

(3)互联网入口向智能硬件变迁

从互联网角度来说,入口发生很大变化。

过去是通过键盘的输入,现在随着智能手机、智能电视、智能音箱、互联网汽车、智能家电的变化,都成为了互联网的入口。

(4)人机交互的方式也在发生变革

语音成为其中重要的爆发点,过去所提及的语音是狭义的,今天所提及的是更泛化的语音,包括资源的理解、处理,能解答对应问题,例如阿里巴巴会做有YunOS 操作系统,有各种移动的应用,另外包括现在在阿里云平台支持很多企业做大数据的应用,其实语音交互是推动某些行业发生很大的变革,

例如客服、智能化的法庭等都离不开语音技术的作用。底层涉及机器学习的算法以及能处理数据的规模,包括GPU、CPU这类计算的平台,是生活中许多事情变得可能。

(5)语音交互架起人与互联网服务间的桥梁

语音是智能化很重要的一个入口,使人能够在任何时间、任何地点,通过任何设备获得所需要的信息,完成所需要完成的任务。

(6)应用场景多样化

最典型的是个人助理,个人助理的应用也有许多不同方向,例如淘宝中的阿里小蜜,阿里小蜜更接近一个电商,包括售前、售中、售后一体的服务。

在支付宝中,有意图直达,语音其实就是一个快速的意图直达,可以通过在支付宝首页语音输入:

我要给某人转账xx金额。便直接可以达到目的。

(7)实体机器人

人通过各种端通过语音实现智能化服务。

ET:阿里云人工智能的代言人

在2021年杭州云栖大会上,马总的讲话也是用et 全部实施的转写,能把字幕打在屏幕上,帮助大家更好理解讲解的内容。

在今年天猫双十一晚会上,et 也配合主持人表演了一个魔术。

所以,以上都是对et 一个不同的展示,最终向人们证明以人工智能语音为核心能在生活的方方面面把不同服务串联在一起,来个我们提供更好的生活。

  1. 背后的核心技术

(1)语音识别

最基础的是语音识别,语音识别在近年来得到快速发展归因于(深度学习)算法跟实时率的平衡,拥有的真实数据规模和覆盖面,模型训练效率(迭代效率)及对各种场景的快速适应。

(2)语音合成

语音合成在过去五到十年中相对比较成熟,今天真正面临的挑战是人们不能用一个声音适应所有的场景,意味着在不同场景要有不同风格的语音合成,要求人们要根据需求快速的定制。

阿里云ET语音的最大突破,在于充分利用云计算和大数据平台的能力,在不到2年的时间里完成了往常需要20年甚至更久的积累,构建了一个强大的基于模型、数据、计算的学习系统。

理解与对话的能力数据信息组织形式不同会将其分为完成任务、基于客服类常见问题的问答、基于知识图谱的问答、没有特别目的的聊天。

(3)信息抽取平台

例如今天所有人与服务代表的对话都是被录音记录下来的,但这些录音并没有发挥很好的价值,如今试图将这份价值发掘出来,可以通过语音识别技术先将其转为文字,再利用自然语言分析算子进行信息抽取。除了用于质检,还可以用来识别危机、监控产品质量、筛选用户等。

案例分析:客服中心的智能化

传统来讲,用户会通过电话或者今天各种im 形式找到客服人员进行沟通交流并获得服务。

但是,电话往往是一个按键式的菜单,具体操作并没有那么便利,如今,我们可以通过把人历史服务的数据作为学习的资料,在此基础上,就可以建立知识库并制作学习的模型,在电话里进行语音识别,通过用户说的话来判断用户出了什么问题,推动其找到合适的服务。

在智能化后,数据会不断沉淀下来,数据还可以延伸做很多的事情,例如:产品监控、异常监控、营销机会的发现、舆情监控等。

将来客服行业将发生许多改变。从成本为中心转为质量为中心,成为一个企业中对用户信息最了解的,拥有最丰富客户信息的柱形。

案例分析:庭审智能化

过去庭审是通过数据员记录所有过程,实际上,由于人的记录能力的有限性,往往不能完整地记录下整个过程。

而法官进行审案时,为了照顾数据员的能力,可能有意将审案节奏拖慢。

如今,语音识别在法庭的介入,基本上会自动通过语音识别将每一个人所言进行准确的记录,整个过程相较以往更加快速与流畅。