语音交互如何改变人与互联网的关系 | 学习笔记

简介: 快速学习语音交互如何改变人与互联网的关系

开发者学堂课程【阿里巴巴智能服务 - 打造数字化企业:语音交互如何改变人与互联网的关系】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/539/detail/7360


语音交互如何改变人与互联网的关系

 

内容简介:

1、达摩院介绍

2、人机交互的变迁

3、智能语音自学习平台

4、总结

 

一、达摩院介绍

达摩院∶以科技,创新世界

2017年10月11日,达摩院正式成立,开始进行基础科学和颠覆式技术创新研究

面向未来,用科技解决未来的问题,服务全世界至少20亿人口

目前已经在全球建立了很多研究中心,目前的研究方向有以下几个方面

1.从事人工智能领域技术研究与工程实施,搭建阿里完整的机器智能平台,重要方向达到世界先进水平,开发创新技术,做过去做不了的事

2.让机器智能或为解决各类实际问题的重要手段,服务社会的各个行业

3.带动机器智能产业集群建设,推动传统产业的转型升级,使我国成为机器智能强国

 

二、人机交互的变迁

1.人机交互变迁史

首先回顾一下交互的发展流程,交换数据在远古时代是通过软盘、光驱去进行传递,每一个机器之间是信息的孤岛。随着技术的发展,互联网便出现了,ADS以及相关宽带技术出现使得整体的交互数据变得非常便捷。

最后在移动互联网时代,由2G 上升到4G 以后,整个需求不再是纯粹的信息的获取,而是从中获得各种各样的服务。伴随着技术的变迁,整个人机交互界面也在变迁。

最早是输入只能依靠不断地敲打键盘去输入到小卡片上然后导入到机器上完成交互过程的卡片机,这种完成交互的过程非常令人困扰。然后就到 mini 行交互模式,这种模式现在也会有在用,这种模式的坏处就是对人的要求非常高,只有受过专业培训的人员才能很好掌握这个技术,所以越来越多的公司会去使用微软,微软提出了 GI 的方式解放了交互的模式。

但是这种模式在非处理的情况下稍微有所改善,它是通过一个鼠标或者键盘的方式输入的,这种方式在交互过程中还不是很顺畅,所以才会有了苹果,通过数控方式来完成交互的输入,这种方式改善了苹果公司商业化的成长。

人与机器交互的模态

批处理接口: batch interface

命令行用户界面:command-line user interface (CLI)

图形用户界面:graphical user interface (GUI)

历史在一再上演

技术的进步带来人机交互界面的变迁

人机交互界面带来硬件的变革

变革带来世界级巨头公司的兴与衰

在硬件发展过程中,越拉越多的公司会去接受并且迎合变革,像一些大公司例如谷歌和微软等等。

2.未来发展趋势

(1)互联网内容向获取个性化服务变迁

商品/服务/头条/音乐/视频

不管是淘宝还是今日头条,每个用户都会根据自己的历史记录获得一些推荐,这种就是一种个性化服务。

(2)互联网入口向智能硬件变迁

●loT : TV/汽车/音箱/可穿戴/机器人

比如每个人都有自己的智能手机、智能音箱、智能电视等等。

(3)人机交互界面向自然用户界面变迁

Natural user interface (NUI)

语音交互(speech)/动作手势(gesture) /...

综上所述,随着智能硬件的发展,IOT 会得到更加广泛的推广,IOT 是需要去进行攻克的东西。

这个时代会面临一定的挑战,例如如何使用多模态的云交互,这个多模态不仅仅指语音,还有手势,甚至包括触感,这些都会成为云交互的媒介,使得人和人之间、人和机器之间的交互更加智能,不是必须通过手才能输入,也不是一定要眼睛看着去输入,各个年龄层都能够去进行使用的交互方式,所以称之为智能语音交互操作无处不在。

3.无处不在的语音交互

阿里巴巴的天猫精灵音响通过音箱来完成输入,和海尔合作发布了及语音智能交互的智能电视,这款电视改变了输入模式,从需要手拿遥控器去进行语音输入到通过一些唤醒词就可以操纵整个电视的播放,只需要一句话就可以可以打开相应播放平台。除了房子以外,车子也做了相应的车载系统,通过此系统可以在开车时解放双手和眼睛,通过语音完成一系列功能。

除了房子和车子,阿里巴巴也会进军公共空间,前景是智能服务机器,同时挑战是强干扰、高噪声、可预期的服务体验。目前还有一些需要进行解决的技术,如技术解决方案的多模态语音交互,包括麦克风大阵列、光学摄像头和新型传感器。

下一代对话引擎包括语音语音融合到话系统和流式多意图语义理解。实验室的demo 除了语音输入以外,还在电视机的显示屏的各方面会使用摄像头和麦克风,方框是说通过麦克风定位出来说话的这个人,知道这个方位之后,通过麦克风去识别这个方位的输入,从而把其他方位的输入屏蔽掉,这样就完成了一种在实验室环境下的高抗噪技术。这样可以如果有多个人说话,可以只有当前在说的这个人可以对交互进行操作。

随后在上海地铁进行了上海地铁售票机的试验及方案。经过调研分析,更多是从外地来上海旅游的人更需要售票机的语音交互,比如要去某个学校,他们很可能不知道在哪个站下,所以如果是传统的交互可能会弹出来很多若干的选项,但是此次试验中增加了行为推荐以及智能决策的技术,只要使用者说出了想要去的地点,售票机就会自动出来一个合理的路径规划。

咖啡机项目中,因为现在很多的咖啡师需要去兼职做一个收银员的责任,所以他们一些工作不能用他们最擅长的技能去完成,他不得不去做一些低级重复的事情,这种事情就是指收银。

所以项目的出发点就是让咖啡师真正的解放他自己的工作,让他更加专职于其本职工作。这种输出方案可以在一个非常短的时间之内可以点很多的咖啡,通过这种技术改善了人机交互的过程。

 

三、智能语音自学习平台

在实际的语音交互过程中会出现很多问题,比如有些客户的困扰是“在不进行识别优化的情况下,没有谁能满足业务场景的需求....”。所以语音厂商可以去提高识别率,通过雇佣大量AI科学家基于业务数据去做专业的模型定制,定制过程需要交付很多的业务数据,这种方式在之前是被认为很好的方式。

两年前和支付宝的合作去做一个智能语音机器人,这个机器人在项目上线的初期准确率非常高,它服务了所有呼入电话,它在不能满足用户要求的时候会去自动转人工,这个项目在当时非常成功,但是实际上会有一些支付宝用户人工服务需要特别高,分析有以下原因,在人工服务需要特别高的前一天晚上,支付宝上了新的业务,即花呗,“花呗”一词是支付宝营造出来的,这个不会进入云识别模型里面去,这时候因为人工智能无法识别这个词就不能进行问题解决,所以会全部转人工。

所以现在应该思考的是,人工智能如何变得更加智能,能不能让语言能识别系统进行自主的学习。

基于此,阿里巴巴上新了一款智能语音自学习平台,提供一键式客户自主的语音识别优化,目的在于使得优化过程不再需要AI科学家,让每一个业务人员甚至运营人员都可以做这样一种优化,以刚才的例子,支付宝的同学只需要把业务词导入到业务系统里面去,整个的模型就会完成自动的优化训练,所以从根本上摆脱对AI科学家的依赖。

只需要上传你的数据到自学习平台那么整个自学习平台会自动去做模型的训练,自动的去做模型的测试,自动的去做模型的发布,所以就是上传一个东西,等待一两分钟,模型就已经完成,就可以直接满足需求。

这个过程中需要的文本数据也特别简单,只需要提供一些业务介绍的文本,产品的说明书,比如具体到客服行业的,如果想要改善客服的识别率,只需要整理一些,以往常规的话术,一些常规的问法,把文本导入到平台里面去,就会形成专属的业务模型。

除了以上功能之外,还有更多的定制功能,

(1)个性化联系人,每个人都值得被尊重。这个技术使得你只需要,把每个联系人的信息导入到平台里面,可以在很短的时间内,这个人就能很准确德被识别。

(2)场景化POI,让天下没有难识的路。

(3)业务热词,即时生效,想你所想。

它还有一些特点,比如说它很快,在传统的模型定制里面,在交付的时候都是以周期,以数周期,或数月期,但是这个的交付的时间就是秒或者是分钟,每个人可以自己去做,不用等很长时间,整个业务的迭代速度会非常快。

识别效果非常准,来自合作伙伴提供的真实的数据,在用了这个技术之后,他们自己可以把识别率提高到90%多。

这个方式会提供一个全面的定制能力

(1)全粒度定制,词、句子、篇章均可定制。

(2)全环境部署,提供公有云/专有云部署能力。

(3)全开放接口,控制台/API,

随您所愿,如果想做一个无人干预的系统,在控制台做这样的事情是很好的,但是如果基于使整个过程更加无人化和自动化,很有可能是在业务系统中,比如录入的产品系统中,直接对接 API,来完成整个模型的优化过程,这样会使得整个过程变得更加顺畅,而不是说这边登了一个产品名,需要再去跳到另一边的控制台里面来进行优化,整个过程很浪费时间。

这个方式解决的最大的一个问题就是传统的人工智能语音交互只能由厂商的ai科学家来做,今天不管是阿里云,还是阿里云的合作伙伴,还是最终的用户,其实谁都可以来做这件事情,所期望是使得一个没有任何基础的人员都可以拉在非常短的时间内都可以完成人工智能优化的方式。

 

四、总结

人机交互的过程发生了变迁,在这个过程中,阿里巴巴会不断地从屋子,车子到公共空间,去进行智能语音交互的探索。在这个过程中,技术的关键是多模态语音交互和下一代对话引擎,是变革的主要场景和基石。

在具体落地的过程中,人工智能要变得让零基础的人员可以进行训练,这样才能满足整体业务的需求,才能真正的被称为人工智能。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
存储 安全 Java
基于springboot自习室预订管理系统
基于springboot自习室预订管理系统
|
存储 缓存 应用服务中间件
Docker 镜像解密:分层存储与镜像构建原理
Docker 镜像解密:分层存储与镜像构建原理
675 0
|
缓存 JavaScript API
深入解析API调用:构建现代应用的数据连接纽带
在今天的应用开发中,API调用是构建现代应用的关键组成部分之一。通过API调用,应用程序可以与外部服务通信,获取数据、发送请求并实现各种功能。本博客将深入研究API调用的核心概念、最佳实践以及如何在应用程序中创建强大的数据连接。
548 0
|
9月前
|
人工智能 自然语言处理 API
阿里云百炼xWaytoAGI共学课DAY1 - 必须了解的企业级AI应用开发知识点
本课程旨在介绍阿里云百炼大模型平台的核心功能和应用场景,帮助开发者和技术小白快速上手,体验AI的强大能力,并探索企业级AI应用开发的可能性。
2574 85
|
数据采集 监控 测试技术
大型IM稳定性监测实践:手Q客户端性能防劣化系统的建设之路
本文以iOS端为例,详细分享了手 Q 客户端性能防劣化系统从0到1的构建之路,相信对业界和IM开发者们都有较高的借鉴意义。
331 3
|
机器学习/深度学习 自然语言处理 算法
心得经验总结:机器翻译评测——BLEU算法详解(新增在线计算BLEU分值)
心得经验总结:机器翻译评测——BLEU算法详解(新增在线计算BLEU分值)
435 0
|
12月前
|
API
LangChain-19 TokenUsage 通过回调函数 只需一行 统计当前调用API的花费情况 包含Tokens数量和Cost花费
LangChain-19 TokenUsage 通过回调函数 只需一行 统计当前调用API的花费情况 包含Tokens数量和Cost花费
146 3
LangChain-19 TokenUsage 通过回调函数 只需一行 统计当前调用API的花费情况 包含Tokens数量和Cost花费
|
12月前
|
Java
== 和 equals 有什么区别?
本文解释了在Java中,"=="用于比较基本数据类型的值或引用类型的引用是否相等,而"equals"默认也是比较引用,但常常被重写为比较对象的值是否相等,例如在String和Integer类中,并且提供了如何自定义"equals"方法的示例。
341 0
== 和 equals 有什么区别?
|
存储 NoSQL 数据库
为什么要用 Tair 来服务低延时场景 - 从购物车升级说起
“购物车升级”是今年双十一期间提升用户体验的关键项目,展示了大淘宝技术团队致力于通过技术突破消费者和商家体验的天花板。低延迟是这些挑战中的核心,内存数据库Tair因其高吞吐、大连接数、热点请求处理、异常流量管理和复杂计算逻辑优化等特点,在低延迟场景下表现出色。Tair使用内存/SCM混合存储和各种索引来提供低延迟服务,并通过无锁并发、水平扩展分区等技术应对高并发。此外,Tair还通过热点策略、流控和执行流程优化等手段确保在大促时的稳定性和性能。Tair在双十一期间支持了购物车、销量统计、卖家优惠券召回和互动场景等多种业务,展现其低延迟和高并发的能力。
77334 11
|
文字识别 Java
Java使用Tess4j识别图片里的文字
Java使用Tess4j识别图片里的文字