人机自然交互平台技术及应用 | 学习笔记

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 快速学习 人机自然交互平台技术及应用

开发者学堂课程【阿里巴巴智能语音交互技术与应用人机自然交互平台技术及应用】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/376/detail/4712


人机自然交互平台技术及应用


目录:

一、人机自然交互概念

二、人机自然交互平台

三、人机自然交互平台的应用


一、  人机自然交互概念

(1) 人体自然交互的原因

2013年底至2014年初这段时间内,我们可感知到两个明显的变化和趋势。

一是互联网服务的深入化,是指互联网服务从传统的媒体延展到服务,从线上延展到线下。比如我们可以通过手机完成打车、叫外卖、实现导航等等线下服务。

二是智能设备的快速发展。智能设备从智能手机延展到智能眼镜,互联网汽车,智能电视,智能音箱,机器人等各种各样的智能设备。

但是用户在设备的体验方面并不是很好,这是由这样两个趋势和变化让我们意识到我们需要做到更自然的人机交互体验,让用户在任何情况下更好的体验自然交互,进而享受到互联网的服务。

(2) 人机交互概念

从两个维度来看,一维度是人机交互是否有明确的目标,如果有明确目标则称为面向 task 的对话,比如打车、听歌、导航等等,若没有明确目标,则称为聊天。

从第二维度来看,分为人机交互是机器主动还是用户主动。

在机器主动时,要求用户严格回答机器的问题,但是此时用户体验感并不是很好,另外一个极端是用户发起且掌控对话,此时由于用户语言的随意性及丰富性,让机器理解用户的思想,是对机器的一个巨大挑战,因此在实际的人机对话的产品当中,都是两种极端的这折中。

从逻辑上来讲,

一个完整的人机自然交互主要分为以下模块:

①  语音识别:把用户的语音转换文字

②  自然语言理解:理解用户的意图,且将意图结构化

③  对话管理:决定执行何种操作

④  自然语言生成:根据对话管理的结论,生成一句或一段话,且以语音的形式反馈给用户。

(3) 自然语言理解

概念:将人的自然语言形式化为结构化、完整的语义表示。

例:买张下周二去上海的飞机票,国航的

领域/意图分类→domain:flight_ticket

Intent:search_flight_ticket

属性抽取、   →time:下周二

Destination:上海

Airline:国航

domain:flight_ticket,

intent:search_flight_ticket,

slots:{

airline:”国航”

time:”下周二”

destination:”上海”

此时语言理解判定用户需要买飞机票,并且将具体信息记录下来。例如出发时间是下周二、目的地是上海、航空公司是国航,进而得到以上完整的语义表示。

自然语言理解的挑战

1、口语语言的多样性:同一个目的,不同的用户会有不同的表达方式

2、语言的歧义性:同一句话可以有不同的理解方式

3、口语的鲁棒性:用户口误、多字少字、别称、不连贯、噪音等等,对于机器来说都是挑战。

(4) 对话管理

概念:给定前一步语言理解的结果,以及完整的对话风格,来决定执行何种操作。

Semantic Representation+Context→DMactions

将执行操作分为三类:

用于指导语言生成

E.g. ask_slot(time),“请问你什么时候出发?”

用于调用数据服务

E.g. goto_service(train)

用于客户端的执行

E.g. open_app,set_reminder

过去三年在人机自然交互方向的演进分为三个阶段

口语语言理解:

OneSearch 合作,打造智能手机的搜索引擎,可以接受用户的语音及自然语言,并且以精准的搜索结果用卡片的形式呈现给用户。

人机对话系统:

实现了一套面向 task 的人机对话系统,具备 cross·domain 的自由对话能力。例如落地在 YUNOS 小云。这样的系统可以让用户和机器进行自然交互,并且收集用户完整的需求,进而得到更精准的结果,并且帮助用户完成任务。

比如订餐、看视频、打车、导航等等。自由对话能力是指用户在完成一个task的过程中会出现领域之间跳转的需求。

自然交互平台(NUI


二、  人机自然交互平台

(1) 扩展对话领域或多个端

遇到的困难:

比如开发了地图领域,此时想扩展到音乐领域,需要把音乐领域的知识、词典、对话逻辑、与音乐接入的工作等等加入最初的领域。

(2) 设备端的扩展

比如在手机上开发了多个领域之后,如果想运用到电视、音箱的时候,以音乐为例,由于不同的设备物理特性不同,有的有屏幕,有的没有屏幕,物理特性不一样决定了交互过程不一样,以音乐为例,在电视上,当用户发出语言指令想听刘德华的歌时,产品希望在屏幕上展示刘德华的歌单,进而让用户选择,但在音箱这个设备上产品希望可以快速给出刘德华的一首歌让用户可以听到歌曲。

正是由于不同的设备端带来的交互逻辑的不同,让我们意识到人机对话交互和业务方有很紧密的关系。自然交互最好由业务方开发他们自己的场景交互。

(3) +端有机协同自然交互平台

端:客户端(手机) 客户端(车机) … 客户端(IOT

Speech Client SDK NUI Client Service

云:NUI Gateway

GDS

DM+NLUChi-ChatQnAIntenSuggestion ASR&TTS

image.png

概念:

在互联网无网的情况下,开车时还能够支持一定能力的对话交互,同时在有网络时还存在着端和服务端返回结果的融合判断机制,因此这是一个云+端有机协同的自然交互平台。

这个平台的能力更多的是在服务端,有强大的语音识别和 TTS,另外有语言理解、对话、聊天、问答、GDS

(1) Open Dialogue

用户自定义新领域和对话流程的解决方案

①  引擎与业务分离

②  基于 grammar 的语言理解引擎

③  基于 Task Flow 的对话脚本语言和对话引擎

有了这个引擎之后,业务方只需要写语言的语法以及对话逻辑,以及对服务的调用和返回结果分析,进而能快速的打造出业务特有的对话逻辑。

(2) 四个引擎

语言理解引擎

NLU 领域分类——升级为深度学习模型

采用融合知识的深度卷积网络(CNN

14个重点领域的测试集合上,相比 SVM 模型有明显提升

基于 B-LSTM 的属性抽取效果提升显著

image.png

对话引擎

基于 Task Flow 的对话脚本语言

Q:为什么要对话脚本语言?

A:把对话逻辑与引擎逻辑解耦,我们可提供核心的引擎层,让业务方通过业务脚本语言来描述对话逻辑

降低开发者的门槛,以简单的方式描述对话过程

Q:为什么基于 Task Flow

A:对话过程的抽象不够全面

DM1.0主要通过 Ontology 来指导信息收集阶段的对话,对完成 task 的后续过程缺少指导性的框架

对任务的边界划分模糊

缺乏任务的“纲领性”描述,没有任务开始和结束的明显标识

对话过程中,并不清楚位于任务的那个阶段

Task Flow 描述了任务的起始、步骤、流转、结束。

实现了 Carry-over 机制。当用户购买火车票时,要先了解天气如何,此时不需要再说一遍目的地,系统可以自动将目的地 carry over 到下一个 domain 中,实现了两个领域中的 carry over 机制。

任务的打断和返回

打断分为两类,一类是主动打断,另一类是被动打断。上一个例子是主动打断,被动打断是指用户说话的随意性,机器无法理解用户的意思,所以自动跳转到其他领域。

问答引擎

主要解决智能客服场景下,引擎收集‹kv›对上传到平台上,进而通过计算语义相近的办法去解决问答需求。

单轮问答的关键点在 Q-Q 的相似性计算:CNN 模型、DSSM 模型

聊天引擎

①  基于‹kv›对的聊天引擎,具备让用户定制的能力

②  基于深度学习模型的 seq2seq 聊天引擎

解什么问题

基于‹kv›对的聊天模块无法对用户的任意 chat 输入都能够给出回复


三、人机自然交互平台技术及应用

1)人机自然交互平台的公共领域

娱乐:音乐、视频、影院、应用、休闲娱乐

美食:餐厅

出行:地图、导航、实时路况、火车票、飞机票、酒店、天气

理财:股票

2)人机自然交互平台的基础组件

把基础组件比喻为乐高积木,有不同的颜色、规格模块,业务方根据不同的业务场景和需求,可以拼装出各种各样的产品。

3)人机自然交互平台的定制能力

①语言理解

业务领域的词典和 grammar

②业务领域的对话过程

对业务服务的调用以及结果处理逻辑

回复的内容

③  卡片的展示方式

④  Q,A›对

⑤发音的定制

儿童音、男声、女声

4)人机自然交互平台应用

互联网汽车

我们的 IDST 正在和 us、上汽、斑马网络一起在多方打造互联网汽车的场景下的语音交互

包含的领域有天气、地图、导航、实时路况、打电话、音乐、电台、有声读物、设置、车辆管理、应用管理等等。

Pepper 机器人

中文的对话交互也是基于平台打造出来的

(2) 下一步工作

让对话交互更流畅

NLU 鲁棒性,对话鲁棒性

让对话交互更智能

知识和记忆的能力

主动对话的能力

持续自学习的能力

相关文章
|
3月前
|
图形学 机器学习/深度学习 人工智能
颠覆传统游戏开发,解锁未来娱乐新纪元:深度解析如何运用Unity引擎结合机器学习技术,打造具备自我进化能力的智能游戏角色,彻底改变你的游戏体验——从基础设置到高级应用全面指南
【8月更文挑战第31天】本文探讨了如何在Unity中利用机器学习增强游戏智能。作为领先的游戏开发引擎,Unity通过ML-Agents Toolkit等工具支持AI代理的强化学习训练,使游戏角色能自主学习完成任务。文章提供了一个迷宫游戏示例及其C#脚本,展示了环境观察、动作响应及奖励机制的设计,并介绍了如何设置训练流程。此外,还提到了Unity与其他机器学习框架(如TensorFlow和PyTorch)的集成,以实现更复杂的游戏玩法。通过这些技术,游戏的智能化程度得以显著提升,为玩家带来更丰富的体验。
64 1
|
6月前
|
自然语言处理 搜索推荐
让玩家全程掌控游戏:自然语言指令驱动的游戏引擎到来了
【4月更文挑战第28天】 Instruction-Driven Game Engine (IDGE) 技术引领游戏产业革命,允许玩家使用自然语言指令创建和修改游戏规则。由香港大学研发的IDGE简化了游戏开发,降低门槛,使非专业人士也能设计游戏。尽管需精确规则描述与大量训练数据,但IDGE潜力巨大,可促进游戏创新与个性化体验。[查看论文: https://arxiv.org/abs/2404.00276]
72 2
|
6月前
|
数据采集 运维 Kubernetes
我在平台与 AIGC 的交互组件一些设计经验
这里阐述以平台运营为主,这里假设说已经有一个平台,包括技术、数据、运维、管理、运营等基础设施的能力。 这个设计原来主要的问题是超自动化的提升,结合 LLM 为了更好的实现,在这个过程中,也包含了一些自主的感知和学习的能力,带有智能体的一定的特征。在前期的研究中也是不断的查看和摸索了很多的开源项目,包括一出来就热门的 Github 项目,但在使用遇到的情况更多的是还只是属于一些例子或者带有很多不稳定因素,并没有说见到能达到较稳定的层面。
|
存储 数据采集 人工智能
跨越时空的对话:如何使用AI阅读工具ChatDOC快速建立数字化身?
开门见山,这篇文章主要介绍如何将 AI 改造为靠谱、好用、基于某个人物的数字化身。比如,乔布斯 AI、马斯克 AI、张一鸣 AI、王兴 AI、佛陀 AI、孔子 AI. 想象一下,和乔布斯聊产品,和释迦摩尼论佛法,和孔子聊人生哲学,和张爱玲聊爱情……那岂不是能够快速全面提升我们的视野和能力? 让各个领域的精英群体或者名人,成为你的专属 AI 助手,便是这篇文章的写作目的。
483 0
|
人工智能 开发框架 供应链
智能AI绘画系统对接丨ai绘画数藏模式系统开发功能版及源码
智能AI绘画系统对接丨ai绘画数藏模式系统开发功能版及源码
427 0
|
机器学习/深度学习 人工智能 自然语言处理
使用AI系统 前有五大语音交互需要 你懂得的
本文,具体介绍了下面5大方面的行业实战评价指标:
|
人工智能 自然语言处理 算法
唇语识别真会是语言交互的终极战场?
在今年的乌镇世界互联网大会上,搜狗展出了一项黑科技——唇语识别,12月14号搜狗在北京又公开演示了这项技术。作为行业领先的唇语识别系统,搜狗在非特定开放口语测试中,通用识别的准确率在60%以上,而在车载、智能家居等垂直场景下,已达到90%的准确率。
唇语识别真会是语言交互的终极战场?
|
存储 数据可视化 atlas
史上最完善人类新陈代谢谱系模型登上《科学》封面!支持3D交互
史上最完善人类新陈代谢谱系模型登上《科学》封面!支持3D交互
156 0
|
人工智能 自然语言处理 机器人
阿里巴巴孙健:关于人机对话交互的思考、实践和未来展望
人工智能的出现使得传统交互的本质发生改变,从原来非常确定性的行为变成了非常开放的行为。阿里巴巴智能服务事业部资深算法专家、阿里巴巴智能服务事业部北京团队负责人孙健在《云栖大讲堂第三期|未来人机交互技术沙龙》围绕云小蜜平台上的交互,带大家一起了解人机交互正在发生的深刻变革。
6515 0
|
人工智能 达摩院 开发者
自然语言智能:为商业搭建语言桥梁
本文是阿里CIO学院技术攻疫(公益)大咖说第九场《摘取人工智能的明珠:达摩院语言技术研发》的精华整理。本场大咖说嘉宾为达摩院语言技术实验室负责人、ACM杰出科学家、阿里巴巴高级研究员司罗,他为大家做了题为《为商业搭建语言桥梁》的分享,主要介绍了当前自然语言研发的现状、趋势,达摩院在自然语言智能方面所
828 0