智能语音技术概述

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
大数据开发治理平台 DataWorks,不限时长
简介: 智能语音技术概述

开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):智能语音技术概述】

课程地址https://edu.aliyun.com/course/3112108/lesson/19283

 

智能语音技术概述

 

内容介绍

一、 智能语音技术的介绍

二、 智能语音技术的应用场景

三、本节回顾

 

课程目标,在学习完本课程之后,能够根据业务需求来选择合适的实现技术,比如说选择语音识别,可以区分语音,语音信号和计算机音频之间的区别,可以根据具体的用环境去选择语音像照与增强技术的时间方法,了解这个两种方法是传统信号处理方法,用我们深度学习的方法,可以连接语音识别和语音唤醒技术的实现原理,了解语音合成技术,并且能够根据业务环境来选择合作实现方法。

可以区分各种人机交互模式,比如说触摸式语音交互或者是体感交互,可以了解智能对话系统,并且任务型问答性和协调性。
培结合业务场景下的语音,对智能对话系统里面的要素进行准确的划分,最后我们会做一个实验,用阿里云的这种语音交互平台来实现一句话识别。
课程安排,先讲述一些基础知识,然后去研究技术的处理对象,相关的技术和语音交互,最后,会进行一个简单的语音技术的实验。

 

一、智能语音技术的介绍


图片643.png

我们先来介绍一下智能语音技术,然后了解一下常见的智能音技术应用场景,淘宝的语音客服现在可以听懂方言了,这是一个很有趣的应用,你可以用方言进行语音搜索天津东北,山东河北,打开淘宝,有一个语音搜索,你点一下语音搜索试一下用方言,然后淘宝可以听得懂,除了这个淘宝的方言语音搜之外,淘宝还有一个一起逛,支持语音聊天购物。


1、智能语音技术的定义
图片644.png随着社会的不断发展,各式各样的电子设备渐渐的参与到人类的生产活动和社会活动中。
因此,改善人类计算机的交互方式,以便于解决复杂的操作,都显得越来越重要了。
语音的类最重要的交流工具就是方便,而且非常的准确高效,可以发现人和机器之间较好的交互方式就是通过语音进行交互,语音技术就是通过对语音进行分析,理解以及合成计算机设备能够说让他具备自然语言来交流的这种技术能力,智种语音涉及的范围有语音的合成技术,语音的识别技术,语音的测评趋势。


语音的合成技术,就是让计算机设备说的时候能自然流畅不生硬,符合人类的这种语言习惯,语音识别技术比较好理解,就是计算机能听得懂,知道人说了什么,语音评测技术主要是口语的评测,计算机对人的发音进行评测,语音降噪会增响,用计算机自动的把声音里面的噪音去除。

 

2、智能语音技术的研究任务

图片645.png

智能语音技术是一门多学科的综合技术,它是心理学基础的。以信息控制系统为主导,涉及到信号处理,模式识别,要统计分析等很多的技术,智能语音证券发展成门新的学科,下面的基础一些常见的任务有语音识别,语音唤醒,语音合成,语音噪增强,声纹识别等等。

 

3、智能语音技术的研究难点

经过细的了解,智能语音的实现难度也是显而易见的。
图片646.png这是一门跨领域的技术,涉及到很多的领域,所以也要掌握有很多领域的基础知识,掌握很多技能才能够把这门技术使用化,比如我们需要心理学和工作论的知识,通过语音,计算机设备交互要通过有的信息来推测用户可能的意图,然后推测的结果可能要作为对话模式进行记录。
与此同时,信号处理和深度学习技术的这个加值能够帮助智能语音技术更好的发展,另外,也需要掌握很多的技能才能把它使用化。

 

智能语音有很多定制化的需求,为了实应语音识别,它的使用环境和说话人可能都是不一样的,需要对音识别的模型进行调整和更新。虽然说起来还在,但是这种语音技术在很多专项的领域坚持得了非常好的进步,也有了很好的使用价值,很多这种语音相关的技术已经到了使用的阶段。

 

二、智能语音技术的应用场景


智能语语音技术的应用场景在不断的增加,接下来我们看一下智能语技术里面的常用的应用场景。
图片647.png我们这里列举一些智能语音技术的应用场景,第一个智能语音的应用场景是法庭庭审转写。


1、法庭庭审转写

传统的在庭审的过程中,是有一个书记员,书记员要对这个法庭的评审进行过程的记录,是正常的维持运转的一个重要的角色,一般要求这个数据员打字的速度要非常的快,因为评审的时候,各方的参与者都要发表的意见,需要数据源把所有的这意见全部都记录下来,如果一旦出现了个书记员跟不上的这种情况,就会影响到法庭的进程,降低庭审的效率。
图片648.png那我们有了阿里云的智能语音交互能力之后,可以在评审的过程中实现,辅助会议快速生成记录,而且这个智能交互也会使谈话的构成更加合规,这个转写之后,因为准确率很高,整理一下,稿件马上就可以生成了。


其实类似转写的这种应用场景,就是把会议转成文字的,这种情况都可以借助阿里云的这种语音交互能力去完成,大大的提升了决定能力。在自己工作的时候也试过做会议记录的时候,直接开转写这个功能。然后会议结束之后,很快会议纪要就可以写好了。

 

2、智能客服质检

我们看下一个应用场景,接下来是智能的客服质检这个应用场景,电话还是一种非常常用的一种图务的方式。
图片649.png有很多公司的这个电话服务的团队的规模非常的大,电话服务可能就是公司跟客户之间的接口,在客服人员跟客户进行电话沟通的时候,客户人员做的时候可能出现违规的情况,或者有一些服务的风险,这个时候因为同时有大量的客服人员在工作,你没有办法去及时的发现这种情况,但即使有电话录音,你也很难去查一查当时那个记录的情况,因为这个数据量会非常的大,这就是风险点,这很可能造成产客户的损失或者公司的损失,好在这种情况下,我们怎么样对客服进行质量的检查?
我们可以借助阿里云的智能云音交互能力,把实时通话的这个录音给转成文本,转成文本,然后直接就保存下来,然后进行实时的文本的分析就容易多了,这个很容易做到自动的检测,另外,即使是需要做离线的质检,也是用这种方式,它的识别检索的效率要高很多,这就是智能客服之间的应用场景。

 

3、实时直播字母及管理

再一个应用场景是实施直播的这个问题管理

图片650.png我们看到的,比如说电视的这个很容易配上。如果是直播的话,这个怎么处理?这个就需要实时的,能够把语音转换成直播的时候,用户可能在一些场合它并不方便去打开语音。但是他需要知道,当时这个语音发生了内容,这个时候就可以把语音转换成另外一个需求,是现在有很多直播的服务。直播的时候,主播讲的话,可能会发生语言违规的情况,那同时有好多的直播间,比较简单的方式就是把直播当时的语言转换成文字,然后对文字进行审查。这个一方跟前面这个情况比较像。还有比如说你对主播,主播的流量还有一个用户时长的不稳定,怎么去管理这个主播跟户互动?这个内容解决方案就是使用阿里的的实时的语音转写能力,他可以看视频的内容,主播在说话的时候,字幕之间就可以到你的眼前,就知道主播在说什么,这样就可以避免主播的违规平台带来的风险,避免造成的社会影响,这种类似的情景,我还遇到过一种很特殊的情况,在看视的时候,听到人有这个需求,把这个视频的语音直接转写了,他看就明白发现什么事情,在上课的时候,实时的论阿里云的这个转写能力,可以通过内容同步。


5、智能语音问询终端

图片651.png

接下来的应用场景是这种语音问询终端,是需要有语音的交互能力,比如说在公共服务设施。在地铁的这种情况下,需要买票,但是没有办法直接操作这个机器,怎么办?他就跟机器沟通,语音跟机器的交互,就可以正常的享用这个公共服务设施。


在设计的时候也是用语音合成的,它会跟用户有一些语音的提醒,像是这种就是比较专用的设备。地铁售票,高铁售票,有的地方是交互能力变得很强,用户到了这个场所的时候,可能有很多需要咨询答疑的这种情况,这个时候如果你有这个问询终端跟客户的交互是最方便的,经常这种交互能力终端会出现在像是机场。医院这种地方经常有人会去机场问怎么样去,去哪里拿票取票等等,这个时候都需要很多人力在这里对顾客服务。在医院经常有这种情况,就包括去药房,专门有咨询台做这个服务,但有了这种这种语音问选择终端,它是可以大大的提高服务的效率,节省人工的成本。这种问询端一般来说不会很复杂,不会很难做,因为同一个场景的,咨询的人面对的都是大量的同样的问题,这种情况下,对云交互的能力要求也不会太高。

 

6、小说新闻内容阅读

图片652.png

这就是有智能语音询终端,然后我们看下一个应用场景,新闻内容阅读的场景。
在生活中,开车的时候,肯定不能阅读,还有跑步吃饭,或者其他的一些情况可能不方便,总是盯着手机看到手机去阅读,那在这种这种情况下,我们可以使用语音合成新闻或者其他的长篇文字,这种形式的信息转换成音频的形式进行播报。


根据用户的习惯转换成不同的形式的播报,现在这种语音合成的能力越来越强了,越来越像真人去播报,在应用场景下,如果你不注意,可能根本不会发现正在给你播报的是人工智能。


三、本节回顾


回顾一下本节的学习容,通过本节的学习,我们学到了智能语音技术的技术介绍,这种云技术是让计算机设备能听会说,具备自然语言交流的技术能力,我们列举了的一些这种语音技术的应用场景,像是法庭的评审,实时直播小说,新闻这些内容文字内容的阅读,智能的客服质检,还有智能的语音终端等等。

相关文章
|
1月前
|
传感器 数据采集 人工智能
【STM32+k210项目】基于AI技术智能语音台灯的设计(完整工程资料源码)
【STM32+k210项目】基于AI技术智能语音台灯的设计(完整工程资料源码)
66 1
|
10月前
|
机器学习/深度学习 人工智能 人机交互
实验:智能语音技术简单实现
实验:智能语音技术简单实现
162 0
|
10月前
|
人工智能 自然语言处理 搜索推荐
智能语音交互概述(二)
智能语音交互概述(二)
102 0
|
10月前
|
自然语言处理 机器人 人机交互
智能语音交互概述(一)
智能语音交互概述(一)
153 0
|
10月前
|
机器学习/深度学习 前端开发 测试技术
智能语音技术的相关技术(二)
智能语音技术的相关技术(二)
196 0
|
10月前
|
机器学习/深度学习 人工智能 算法
智能语音技术的相关技术(一)
智能语音技术的相关技术(一)
126 0
|
10月前
|
编解码 人工智能 算法
智能语音技术的处理对象(二)
智能语音技术的处理对象(二)
61 0
|
10月前
|
存储 人工智能 数据可视化
智能语音技术的处理对象(一)
智能语音技术的处理对象(一)
109 0
|
机器学习/深度学习 自然语言处理 搜索推荐
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
智能语音交互基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。 目前已上线实时语音识别、一句话识别、录音文件识别、语音合成等多款产品,您可以在控制台页面进行试用,也可以通过API调用相关能力。
44004 4
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与智能语音概述 | 学习笔记
快速学习 人工智能与智能语音概述
157 0
人工智能与智能语音概述 | 学习笔记