人机自然交互平台技术及应用 | 学习笔记

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 快速学习 人机自然交互平台技术及应用

开发者学堂课程【阿里巴巴智能语音交互技术与应用人机自然交互平台技术及应用】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/376/detail/4712


人机自然交互平台技术及应用


目录:

一、人机自然交互概念

二、人机自然交互平台

三、人机自然交互平台的应用


一、  人机自然交互概念

(1) 人体自然交互的原因

2013年底至2014年初这段时间内,我们可感知到两个明显的变化和趋势。

一是互联网服务的深入化,是指互联网服务从传统的媒体延展到服务,从线上延展到线下。比如我们可以通过手机完成打车、叫外卖、实现导航等等线下服务。

二是智能设备的快速发展。智能设备从智能手机延展到智能眼镜,互联网汽车,智能电视,智能音箱,机器人等各种各样的智能设备。

但是用户在设备的体验方面并不是很好,这是由这样两个趋势和变化让我们意识到我们需要做到更自然的人机交互体验,让用户在任何情况下更好的体验自然交互,进而享受到互联网的服务。

(2) 人机交互概念

从两个维度来看,一维度是人机交互是否有明确的目标,如果有明确目标则称为面向 task 的对话,比如打车、听歌、导航等等,若没有明确目标,则称为聊天。

从第二维度来看,分为人机交互是机器主动还是用户主动。

在机器主动时,要求用户严格回答机器的问题,但是此时用户体验感并不是很好,另外一个极端是用户发起且掌控对话,此时由于用户语言的随意性及丰富性,让机器理解用户的思想,是对机器的一个巨大挑战,因此在实际的人机对话的产品当中,都是两种极端的这折中。

从逻辑上来讲,

一个完整的人机自然交互主要分为以下模块:

①  语音识别:把用户的语音转换文字

②  自然语言理解:理解用户的意图,且将意图结构化

③  对话管理:决定执行何种操作

④  自然语言生成:根据对话管理的结论,生成一句或一段话,且以语音的形式反馈给用户。

(3) 自然语言理解

概念:将人的自然语言形式化为结构化、完整的语义表示。

例:买张下周二去上海的飞机票,国航的

领域/意图分类→domain:flight_ticket

Intent:search_flight_ticket

属性抽取、   →time:下周二

Destination:上海

Airline:国航

domain:flight_ticket,

intent:search_flight_ticket,

slots:{

airline:”国航”

time:”下周二”

destination:”上海”

此时语言理解判定用户需要买飞机票,并且将具体信息记录下来。例如出发时间是下周二、目的地是上海、航空公司是国航,进而得到以上完整的语义表示。

自然语言理解的挑战

1、口语语言的多样性:同一个目的,不同的用户会有不同的表达方式

2、语言的歧义性:同一句话可以有不同的理解方式

3、口语的鲁棒性:用户口误、多字少字、别称、不连贯、噪音等等,对于机器来说都是挑战。

(4) 对话管理

概念:给定前一步语言理解的结果,以及完整的对话风格,来决定执行何种操作。

Semantic Representation+Context→DMactions

将执行操作分为三类:

用于指导语言生成

E.g. ask_slot(time),“请问你什么时候出发?”

用于调用数据服务

E.g. goto_service(train)

用于客户端的执行

E.g. open_app,set_reminder

过去三年在人机自然交互方向的演进分为三个阶段

口语语言理解:

OneSearch 合作,打造智能手机的搜索引擎,可以接受用户的语音及自然语言,并且以精准的搜索结果用卡片的形式呈现给用户。

人机对话系统:

实现了一套面向 task 的人机对话系统,具备 cross·domain 的自由对话能力。例如落地在 YUNOS 小云。这样的系统可以让用户和机器进行自然交互,并且收集用户完整的需求,进而得到更精准的结果,并且帮助用户完成任务。

比如订餐、看视频、打车、导航等等。自由对话能力是指用户在完成一个task的过程中会出现领域之间跳转的需求。

自然交互平台(NUI


二、  人机自然交互平台

(1) 扩展对话领域或多个端

遇到的困难:

比如开发了地图领域,此时想扩展到音乐领域,需要把音乐领域的知识、词典、对话逻辑、与音乐接入的工作等等加入最初的领域。

(2) 设备端的扩展

比如在手机上开发了多个领域之后,如果想运用到电视、音箱的时候,以音乐为例,由于不同的设备物理特性不同,有的有屏幕,有的没有屏幕,物理特性不一样决定了交互过程不一样,以音乐为例,在电视上,当用户发出语言指令想听刘德华的歌时,产品希望在屏幕上展示刘德华的歌单,进而让用户选择,但在音箱这个设备上产品希望可以快速给出刘德华的一首歌让用户可以听到歌曲。

正是由于不同的设备端带来的交互逻辑的不同,让我们意识到人机对话交互和业务方有很紧密的关系。自然交互最好由业务方开发他们自己的场景交互。

(3) +端有机协同自然交互平台

端:客户端(手机) 客户端(车机) … 客户端(IOT

Speech Client SDK NUI Client Service

云:NUI Gateway

GDS

DM+NLUChi-ChatQnAIntenSuggestion ASR&TTS

image.png

概念:

在互联网无网的情况下,开车时还能够支持一定能力的对话交互,同时在有网络时还存在着端和服务端返回结果的融合判断机制,因此这是一个云+端有机协同的自然交互平台。

这个平台的能力更多的是在服务端,有强大的语音识别和 TTS,另外有语言理解、对话、聊天、问答、GDS

(1) Open Dialogue

用户自定义新领域和对话流程的解决方案

①  引擎与业务分离

②  基于 grammar 的语言理解引擎

③  基于 Task Flow 的对话脚本语言和对话引擎

有了这个引擎之后,业务方只需要写语言的语法以及对话逻辑,以及对服务的调用和返回结果分析,进而能快速的打造出业务特有的对话逻辑。

(2) 四个引擎

语言理解引擎

NLU 领域分类——升级为深度学习模型

采用融合知识的深度卷积网络(CNN

14个重点领域的测试集合上,相比 SVM 模型有明显提升

基于 B-LSTM 的属性抽取效果提升显著

image.png

对话引擎

基于 Task Flow 的对话脚本语言

Q:为什么要对话脚本语言?

A:把对话逻辑与引擎逻辑解耦,我们可提供核心的引擎层,让业务方通过业务脚本语言来描述对话逻辑

降低开发者的门槛,以简单的方式描述对话过程

Q:为什么基于 Task Flow

A:对话过程的抽象不够全面

DM1.0主要通过 Ontology 来指导信息收集阶段的对话,对完成 task 的后续过程缺少指导性的框架

对任务的边界划分模糊

缺乏任务的“纲领性”描述,没有任务开始和结束的明显标识

对话过程中,并不清楚位于任务的那个阶段

Task Flow 描述了任务的起始、步骤、流转、结束。

实现了 Carry-over 机制。当用户购买火车票时,要先了解天气如何,此时不需要再说一遍目的地,系统可以自动将目的地 carry over 到下一个 domain 中,实现了两个领域中的 carry over 机制。

任务的打断和返回

打断分为两类,一类是主动打断,另一类是被动打断。上一个例子是主动打断,被动打断是指用户说话的随意性,机器无法理解用户的意思,所以自动跳转到其他领域。

问答引擎

主要解决智能客服场景下,引擎收集‹kv›对上传到平台上,进而通过计算语义相近的办法去解决问答需求。

单轮问答的关键点在 Q-Q 的相似性计算:CNN 模型、DSSM 模型

聊天引擎

①  基于‹kv›对的聊天引擎,具备让用户定制的能力

②  基于深度学习模型的 seq2seq 聊天引擎

解什么问题

基于‹kv›对的聊天模块无法对用户的任意 chat 输入都能够给出回复


三、人机自然交互平台技术及应用

1)人机自然交互平台的公共领域

娱乐:音乐、视频、影院、应用、休闲娱乐

美食:餐厅

出行:地图、导航、实时路况、火车票、飞机票、酒店、天气

理财:股票

2)人机自然交互平台的基础组件

把基础组件比喻为乐高积木,有不同的颜色、规格模块,业务方根据不同的业务场景和需求,可以拼装出各种各样的产品。

3)人机自然交互平台的定制能力

①语言理解

业务领域的词典和 grammar

②业务领域的对话过程

对业务服务的调用以及结果处理逻辑

回复的内容

③  卡片的展示方式

④  Q,A›对

⑤发音的定制

儿童音、男声、女声

4)人机自然交互平台应用

互联网汽车

我们的 IDST 正在和 us、上汽、斑马网络一起在多方打造互联网汽车的场景下的语音交互

包含的领域有天气、地图、导航、实时路况、打电话、音乐、电台、有声读物、设置、车辆管理、应用管理等等。

Pepper 机器人

中文的对话交互也是基于平台打造出来的

(2) 下一步工作

让对话交互更流畅

NLU 鲁棒性,对话鲁棒性

让对话交互更智能

知识和记忆的能力

主动对话的能力

持续自学习的能力

相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 机器人
基于深度学习的智能语音机器人交互系统设计方案
**摘要** 本项目旨在设计和实现一套基于深度学习的智能语音机器人交互系统,该系统能够准确识别和理解用户的语音指令,提供快速响应,并注重安全性和用户友好性。系统采用分层架构,包括用户层、应用层、服务层和数据层,涉及语音识别、自然语言处理和语音合成等关键技术。深度学习模型,如RNN和LSTM,用于提升识别准确率,微服务架构和云计算技术确保系统的高效性和可扩展性。系统流程涵盖用户注册、语音数据采集、识别、处理和反馈。预期效果是高识别准确率、高效处理和良好的用户体验。未来计划包括系统性能优化和更多应用场景的探索,目标是打造一个适用于智能家居、医疗健康、教育培训等多个领域的智能语音交互解决方案。
|
2月前
|
传感器 人工智能 自然语言处理
AI智能家居系统如何实现自动化控制?
【6月更文挑战第23天】AI智能家居系统如何实现自动化控制?
68 7
|
3月前
|
数据采集 运维 Kubernetes
我在平台与 AIGC 的交互组件一些设计经验
这里阐述以平台运营为主,这里假设说已经有一个平台,包括技术、数据、运维、管理、运营等基础设施的能力。 这个设计原来主要的问题是超自动化的提升,结合 LLM 为了更好的实现,在这个过程中,也包含了一些自主的感知和学习的能力,带有智能体的一定的特征。在前期的研究中也是不断的查看和摸索了很多的开源项目,包括一出来就热门的 Github 项目,但在使用遇到的情况更多的是还只是属于一些例子或者带有很多不稳定因素,并没有说见到能达到较稳定的层面。
|
3月前
|
自然语言处理 运维 架构师
我在平台与 AIGC 的交互的组件设计方案 (2)
上一篇梳理到我在平台与 AIGC 的交互的组件设计方案,进行了交互的设计架构,而进一步结合 IM 整合,将进一步阐述优化交互流程。同时到这步环节引入体验人员来验证 LLM 对工程师的提升效果,同时体现出超级工程师个体。
|
10月前
|
存储 安全 物联网
元宇宙技术搭建 | 虚拟交互系统开发技术讲解
目前,去中心化技术、电子游戏技术、人工智能技术、交互技术、物联网技术和网络及运算技术这些已有技术为元宇宙的实现和应用奠定了技术基础,同时元宇宙的实现也将促进其它技术的发展,如身份建模、关系建模、会话管理、资源管理、能耗管理、时空一致性、安全与隐私保护等。接下来我们将会一一解析这些技术。
|
存储 数据采集 人工智能
跨越时空的对话:如何使用AI阅读工具ChatDOC快速建立数字化身?
开门见山,这篇文章主要介绍如何将 AI 改造为靠谱、好用、基于某个人物的数字化身。比如,乔布斯 AI、马斯克 AI、张一鸣 AI、王兴 AI、佛陀 AI、孔子 AI. 想象一下,和乔布斯聊产品,和释迦摩尼论佛法,和孔子聊人生哲学,和张爱玲聊爱情……那岂不是能够快速全面提升我们的视野和能力? 让各个领域的精英群体或者名人,成为你的专属 AI 助手,便是这篇文章的写作目的。
432 0
|
自然语言处理 监控 机器人
智能语音机器人系统带给你高效率的工作
一.服务管理层 服务管理层在智能语音机器人系统上为企业提供丰富的增值服务,包括业务开发管理服务、服务监控服务。业务开发管理服务为业务人员提供业务编辑的管理界面,方便其对业务流程进行编辑,如业务人员可以通过话术编辑和组件拖拽的方式构建电话呼叫对话流程图。服务监控服务则主要针对语义解析引擎当前配置信息的管理与设置,实时对系统的运行数据进行统计分析。 一、智能业务层   智能业务层是智能语音机器人系统的核心层,是系统具备机器智能呼叫/接听功能的关键所在,包括业务流程对话管理以及语义解析引擎两大模块。业务流程对话管理又包括业务解析和对话管理子模块。业务解析子模块实现对本地业务脚本文件或业务开发管理服务
|
机器学习/深度学习 人工智能 自然语言处理
使用AI系统 前有五大语音交互需要 你懂得的
本文,具体介绍了下面5大方面的行业实战评价指标:
|
人工智能 自然语言处理 算法
唇语识别真会是语言交互的终极战场?
在今年的乌镇世界互联网大会上,搜狗展出了一项黑科技——唇语识别,12月14号搜狗在北京又公开演示了这项技术。作为行业领先的唇语识别系统,搜狗在非特定开放口语测试中,通用识别的准确率在60%以上,而在车载、智能家居等垂直场景下,已达到90%的准确率。
唇语识别真会是语言交互的终极战场?
|
存储 数据可视化 atlas
史上最完善人类新陈代谢谱系模型登上《科学》封面!支持3D交互
史上最完善人类新陈代谢谱系模型登上《科学》封面!支持3D交互
141 0