语音交互如何改变人与互联网的关系 | 学习笔记

简介: 快速学习语音交互如何改变人与互联网的关系

开发者学堂课程【阿里巴巴智能服务 - 打造数字化企业:语音交互如何改变人与互联网的关系】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/539/detail/7360


语音交互如何改变人与互联网的关系

 

内容简介:

1、达摩院介绍

2、人机交互的变迁

3、智能语音自学习平台

4、总结

 

一、达摩院介绍

达摩院∶以科技,创新世界

2017年10月11日,达摩院正式成立,开始进行基础科学和颠覆式技术创新研究

面向未来,用科技解决未来的问题,服务全世界至少20亿人口

目前已经在全球建立了很多研究中心,目前的研究方向有以下几个方面

1.从事人工智能领域技术研究与工程实施,搭建阿里完整的机器智能平台,重要方向达到世界先进水平,开发创新技术,做过去做不了的事

2.让机器智能或为解决各类实际问题的重要手段,服务社会的各个行业

3.带动机器智能产业集群建设,推动传统产业的转型升级,使我国成为机器智能强国

 

二、人机交互的变迁

1.人机交互变迁史

首先回顾一下交互的发展流程,交换数据在远古时代是通过软盘、光驱去进行传递,每一个机器之间是信息的孤岛。随着技术的发展,互联网便出现了,ADS以及相关宽带技术出现使得整体的交互数据变得非常便捷。

最后在移动互联网时代,由2G 上升到4G 以后,整个需求不再是纯粹的信息的获取,而是从中获得各种各样的服务。伴随着技术的变迁,整个人机交互界面也在变迁。

最早是输入只能依靠不断地敲打键盘去输入到小卡片上然后导入到机器上完成交互过程的卡片机,这种完成交互的过程非常令人困扰。然后就到 mini 行交互模式,这种模式现在也会有在用,这种模式的坏处就是对人的要求非常高,只有受过专业培训的人员才能很好掌握这个技术,所以越来越多的公司会去使用微软,微软提出了 GI 的方式解放了交互的模式。

但是这种模式在非处理的情况下稍微有所改善,它是通过一个鼠标或者键盘的方式输入的,这种方式在交互过程中还不是很顺畅,所以才会有了苹果,通过数控方式来完成交互的输入,这种方式改善了苹果公司商业化的成长。

人与机器交互的模态

批处理接口: batch interface

命令行用户界面:command-line user interface (CLI)

图形用户界面:graphical user interface (GUI)

历史在一再上演

技术的进步带来人机交互界面的变迁

人机交互界面带来硬件的变革

变革带来世界级巨头公司的兴与衰

在硬件发展过程中,越拉越多的公司会去接受并且迎合变革,像一些大公司例如谷歌和微软等等。

2.未来发展趋势

(1)互联网内容向获取个性化服务变迁

商品/服务/头条/音乐/视频

不管是淘宝还是今日头条,每个用户都会根据自己的历史记录获得一些推荐,这种就是一种个性化服务。

(2)互联网入口向智能硬件变迁

●loT : TV/汽车/音箱/可穿戴/机器人

比如每个人都有自己的智能手机、智能音箱、智能电视等等。

(3)人机交互界面向自然用户界面变迁

Natural user interface (NUI)

语音交互(speech)/动作手势(gesture) /...

综上所述,随着智能硬件的发展,IOT 会得到更加广泛的推广,IOT 是需要去进行攻克的东西。

这个时代会面临一定的挑战,例如如何使用多模态的云交互,这个多模态不仅仅指语音,还有手势,甚至包括触感,这些都会成为云交互的媒介,使得人和人之间、人和机器之间的交互更加智能,不是必须通过手才能输入,也不是一定要眼睛看着去输入,各个年龄层都能够去进行使用的交互方式,所以称之为智能语音交互操作无处不在。

3.无处不在的语音交互

阿里巴巴的天猫精灵音响通过音箱来完成输入,和海尔合作发布了及语音智能交互的智能电视,这款电视改变了输入模式,从需要手拿遥控器去进行语音输入到通过一些唤醒词就可以操纵整个电视的播放,只需要一句话就可以可以打开相应播放平台。除了房子以外,车子也做了相应的车载系统,通过此系统可以在开车时解放双手和眼睛,通过语音完成一系列功能。

除了房子和车子,阿里巴巴也会进军公共空间,前景是智能服务机器,同时挑战是强干扰、高噪声、可预期的服务体验。目前还有一些需要进行解决的技术,如技术解决方案的多模态语音交互,包括麦克风大阵列、光学摄像头和新型传感器。

下一代对话引擎包括语音语音融合到话系统和流式多意图语义理解。实验室的demo 除了语音输入以外,还在电视机的显示屏的各方面会使用摄像头和麦克风,方框是说通过麦克风定位出来说话的这个人,知道这个方位之后,通过麦克风去识别这个方位的输入,从而把其他方位的输入屏蔽掉,这样就完成了一种在实验室环境下的高抗噪技术。这样可以如果有多个人说话,可以只有当前在说的这个人可以对交互进行操作。

随后在上海地铁进行了上海地铁售票机的试验及方案。经过调研分析,更多是从外地来上海旅游的人更需要售票机的语音交互,比如要去某个学校,他们很可能不知道在哪个站下,所以如果是传统的交互可能会弹出来很多若干的选项,但是此次试验中增加了行为推荐以及智能决策的技术,只要使用者说出了想要去的地点,售票机就会自动出来一个合理的路径规划。

咖啡机项目中,因为现在很多的咖啡师需要去兼职做一个收银员的责任,所以他们一些工作不能用他们最擅长的技能去完成,他不得不去做一些低级重复的事情,这种事情就是指收银。

所以项目的出发点就是让咖啡师真正的解放他自己的工作,让他更加专职于其本职工作。这种输出方案可以在一个非常短的时间之内可以点很多的咖啡,通过这种技术改善了人机交互的过程。

 

三、智能语音自学习平台

在实际的语音交互过程中会出现很多问题,比如有些客户的困扰是“在不进行识别优化的情况下,没有谁能满足业务场景的需求....”。所以语音厂商可以去提高识别率,通过雇佣大量AI科学家基于业务数据去做专业的模型定制,定制过程需要交付很多的业务数据,这种方式在之前是被认为很好的方式。

两年前和支付宝的合作去做一个智能语音机器人,这个机器人在项目上线的初期准确率非常高,它服务了所有呼入电话,它在不能满足用户要求的时候会去自动转人工,这个项目在当时非常成功,但是实际上会有一些支付宝用户人工服务需要特别高,分析有以下原因,在人工服务需要特别高的前一天晚上,支付宝上了新的业务,即花呗,“花呗”一词是支付宝营造出来的,这个不会进入云识别模型里面去,这时候因为人工智能无法识别这个词就不能进行问题解决,所以会全部转人工。

所以现在应该思考的是,人工智能如何变得更加智能,能不能让语言能识别系统进行自主的学习。

基于此,阿里巴巴上新了一款智能语音自学习平台,提供一键式客户自主的语音识别优化,目的在于使得优化过程不再需要AI科学家,让每一个业务人员甚至运营人员都可以做这样一种优化,以刚才的例子,支付宝的同学只需要把业务词导入到业务系统里面去,整个的模型就会完成自动的优化训练,所以从根本上摆脱对AI科学家的依赖。

只需要上传你的数据到自学习平台那么整个自学习平台会自动去做模型的训练,自动的去做模型的测试,自动的去做模型的发布,所以就是上传一个东西,等待一两分钟,模型就已经完成,就可以直接满足需求。

这个过程中需要的文本数据也特别简单,只需要提供一些业务介绍的文本,产品的说明书,比如具体到客服行业的,如果想要改善客服的识别率,只需要整理一些,以往常规的话术,一些常规的问法,把文本导入到平台里面去,就会形成专属的业务模型。

除了以上功能之外,还有更多的定制功能,

(1)个性化联系人,每个人都值得被尊重。这个技术使得你只需要,把每个联系人的信息导入到平台里面,可以在很短的时间内,这个人就能很准确德被识别。

(2)场景化POI,让天下没有难识的路。

(3)业务热词,即时生效,想你所想。

它还有一些特点,比如说它很快,在传统的模型定制里面,在交付的时候都是以周期,以数周期,或数月期,但是这个的交付的时间就是秒或者是分钟,每个人可以自己去做,不用等很长时间,整个业务的迭代速度会非常快。

识别效果非常准,来自合作伙伴提供的真实的数据,在用了这个技术之后,他们自己可以把识别率提高到90%多。

这个方式会提供一个全面的定制能力

(1)全粒度定制,词、句子、篇章均可定制。

(2)全环境部署,提供公有云/专有云部署能力。

(3)全开放接口,控制台/API,

随您所愿,如果想做一个无人干预的系统,在控制台做这样的事情是很好的,但是如果基于使整个过程更加无人化和自动化,很有可能是在业务系统中,比如录入的产品系统中,直接对接 API,来完成整个模型的优化过程,这样会使得整个过程变得更加顺畅,而不是说这边登了一个产品名,需要再去跳到另一边的控制台里面来进行优化,整个过程很浪费时间。

这个方式解决的最大的一个问题就是传统的人工智能语音交互只能由厂商的ai科学家来做,今天不管是阿里云,还是阿里云的合作伙伴,还是最终的用户,其实谁都可以来做这件事情,所期望是使得一个没有任何基础的人员都可以拉在非常短的时间内都可以完成人工智能优化的方式。

 

四、总结

人机交互的过程发生了变迁,在这个过程中,阿里巴巴会不断地从屋子,车子到公共空间,去进行智能语音交互的探索。在这个过程中,技术的关键是多模态语音交互和下一代对话引擎,是变革的主要场景和基石。

在具体落地的过程中,人工智能要变得让零基础的人员可以进行训练,这样才能满足整体业务的需求,才能真正的被称为人工智能。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
5天前
|
数据可视化 决策智能
你的文档还是静态的吗?实时协作改变游戏规则!
在高效协作成为工作刚需的今天,协作文档已成为团队核心需求。本文从团队需求出发,深入分析了实时协作的重要性、关键特性和解决方案,探讨了文档、任务和数据联动的新趋势,强调了选择合适工具对提升团队效率的关键作用。
|
1月前
|
API 语音技术 开发者
基于开源技术的数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s
魔搭社区最近上线了基于开源技术的数字人实时对话demo,无需预训练即可使用自定义的数字人形象进行实时对话,支持语音输入和实时对话。
|
6月前
|
vr&ar UED 智能硬件
元宇宙与接入层之间的关系是构建和体验元宇宙世界的重要基础
**元宇宙接入层摘要:** 元宇宙的入口与交互关键在于接入层,它通过智能手机、VR/AR等设备让用户进入虚拟世界,实现沉浸式体验。接入层支持多样设备,需高速数据传输及易用性。元宇宙与接入层相互依赖,共同进化,元宇宙发展推动接入层技术创新,以满足更丰富场景和用户需求。
游戏行业术语解决及数据计算方式
游戏行业术语解决及数据计算方式
103 0
|
机器学习/深度学习 人工智能 搜索推荐
智能代理:改变人机交互的方式
智能代理作为一种新的人机交互方式,正在改变着人们与计算机系统之间的互动方式。从个人助手、聊天机器人到游戏智能,智能代理在多个领域展示了其强大的应用潜力。然而,智能代理也面临着语义理解、个性化定制和隐私等挑战。随着人工智能技术的不断发展,智能代理有望成为未来人机交互的重要方式之一。
467 1
|
数据可视化 vr&ar 计算机视觉
使用标记增强技术将虚拟内容呈现到现实场景中
使用基于标记的增强现实将虚拟内容呈现到场景中。
176 0
|
机器学习/深度学习 自然语言处理 机器人
人机自然交互平台技术及应用 | 学习笔记
快速学习 人机自然交互平台技术及应用
300 0
人机自然交互平台技术及应用 | 学习笔记
|
存储 搜索推荐
语音平台开发,展现社交属性的重要功能
语音平台开发,展现社交属性的重要功能
|
iOS开发 Android开发 UED
带你读《好设计,有方法:我们在搜狐做产品体验设计》之三:区分不同载体的设计
那些激动人心、让人拍手叫好的设计,到底有没有方法可循?背后到底有没有设计理论支撑?答案是肯定的!本书作者是资深体验设计专家,拥有超过10年的产品体验设计和团队管理经验,他们将试图为大家总结和揭示那些优秀设计背后的理论和方法。