思必驰推出启发式对话系统,关注知识传播的会话精灵

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 近日,机器之心采访了思必驰北京研发院院长初敏博士,她向我们介绍了新型对话系统「会话精灵」的概念与过程。该对话系统通过知识图谱与复杂结构知识管理技术,完成语音识别、语义理解与对话生成。这一系统最大的特点是基于复杂结构知识库进行启发式的对话,即通过提问规划整个问答的主题变化。

对于对话系统来说,一般都可以分为特征处理、理解意图和生成答案等过程。思必驰北京研发院 NLP 负责人葛付江解释,在接收问句后,系统会进行进行分词、词性标注以及命名实体识别等过程以完成问句的特征处理过程。


在识别出实体后,系统会判断问句所属的领域,并先限定问句的场景,这一般可以通过模版或其它分类模型完成。而限定领域其实是为了进一步通过预定义的槽位(Slot)确定用户的结构化意图,从问句抽取的实体也会填补到对应槽位中。随后的对话管理模块就要判断槽位到底是不是已经满足要求,如果不满足可能需要进一步提问。根据这些结构化的提问信息,系统最终会从数据服务中查找对应的信息,并生成非常自然的语句。


微信图片_20211129230801.jpg

图 1:对话流程


如上所示当提问「定一张明天去上海的机票」时,特征处理会抽取出时间实体「明天」。然后识别为订票领域并填补订票所需要的时间、出发地、目的地等信息。当槽位都满足时,系统会根据时间、出发地、目的地等信息查找具体的机票信息,并生成生动的回答或执行订票操作。


同样遵循一般的对话系统流程,会话精灵能以知识图谱的形式帮助企业有效地进行复杂知识沉淀和管理,并通过启发式对话适当引导用户关注焦点,帮助用户获取更清晰准确的信息。


会话精灵可以先通过语音识别将输入转为文字,或直接输入文字以进行自然语言理解。一般语义理解可以使用规则系统进行解析,也可以使用 sequence to sequence 等深度学习模型进行建模。解析完的语义可确定对应的意图和话题,并通过 QA 对和知识图谱检索答案。「会话精灵」系统并不会止步于回答,它还会根据知识图谱检索其它相关的话题,并向用户提问以引导对话的发展。


初敏说:「其实从外表看起来会话精灵还是一个小的会话机器人,所以主要的模块和一般的会话机器人差不多。一般语音和文字都可以作为会话精灵的输入,然后经过自然语言理解以及对话管理而生成答案。」


但一般的会话系统仅止步于给出答案,目前通过提问进行学习的系统还处于研究阶段。初敏表示:「会话精灵与一般系统最大的区别可以分为两部分,一个是我们称之为叫启发式的对话,另一个是我们采用知识型而不是任务型的对话内容。听音乐订酒店等传统任务型对话系统有一个明确的目标来完成一件事情,用户只要发出指令就能正确执行特定的任务。」


启发式问答系统


会话精灵并不聚焦于完成任务,它更希望创造机器与用户之间的信息交流。初敏表示:「不管是人还是公司,我们都需要和别人沟通来传播核心信息。例如对于微信文章,历史文章很难再大量获得用户的关注,除非是人力将它们重新链接到当前的文章。所以我们希望这些核心信息能用更好的知识组织形式,并重新与用户进行交互。」


因为个人都有自己的私有信息,企业也有自己的沟通目标,所以我们并不能奢望机器人什么都知道,只需要它在特定领域有很好的体验就行。初敏表示会话精灵特别的地方在于信息知识的传播能力,而不是完成任务的能力。她说:「当用户准备问问题时,很可能他也不确定具体需要什么样的信息或知识,而相反企业有一大堆想告诉用户的问题。所以我们需要做的就是延长对话的轮数,并规划用户可能需要获得哪些知识。这样通过七八条对话以后,企业基本就能把用户希望知道的核心知识都传递给他。」


所以会话精灵真正要解决的问题就是把企业信息与相应的知识点组织起来,然后它就可以在知识架构中规划一些路径与用户交流。这种方法可以让用户不需要费力提问,只需要执行一些挑选就可以与机器沟通。初敏说:「机器人主动引导对话是会话精灵最核心的能力,这种引导也是一种规划,系统会对接下来可能进行的话题进行规划。而这些话题也有一些是普通的,也就是说这些不是企业想传播的信息。如果用户提问这些普通的话题,系统会回答问题但不会主动启发这些沟通。而例如销售等另外一些企业希望传播的信息,系统会在对话中慢慢引导到那样的话题。」


完成这样的对话引导,首要的问题就是理解用户的提问。正如前文所述,系统需要对提问进行分词、命名实体识别与话题检测等过程。当用户输入语音或文字,系统会先转化为文字,然后再通过不同的深度方法与规则系统进行自然语言理解。一般规则系统会采用类似正则的语法,例如 [科研人员][时间] 发表过的 [文章]。而会话精灵也可以采用意图分类来理解自然语言,例如将关键词作为特征并利用机器学习进行文本分类。


解析自然语言后,生成的回答或引导需要系统对知识结构有完整的掌握,这样才能有针对性地提问相关问题。会话精灵的知识点通常可以分为两种,其中一种是 QA 对(也叫问答对)。每当用户提出问题后,系统会尝试检索是不是已经存在问答对与当前问题相似,如果有的话就能输出特定的回答。另外一些知识点是通过建立知识图谱,以知识卡片的形式来存储的,例如产品和技术的各种属性,这些信息都是知识性的问题。


对于 QA 对来说,重要的是计算句子间的相似性,这样才能检索到与已有问句相似的问题。如下葛付江向我们展示了一种计算语句相似性的基础方法,我们可以使用 LSTM 分别抽取两个语句的语义信息,再计算这两个语义向量的距离而求出它们是不是相似 [1]。如果相似性达到了某个阈值,那么我们就能输出对应的已有回答信息。


微信图片_20211129230805.jpg

图 2:基于 RNN 的句子相似度计算


当然,我们也可以使用其它更为优秀的方法判断语句相似性,包括序列匹配网络和最近非常流行的 Transformer。其中 Transformer 采用全注意力模型以及编码器解码器架构匹配原句与目标句之间的相似性。


解析的语义还能通过知识图谱检索对应知识,其最直观的方式是通过逻辑表达式,例如将问句表述为实体及实体之间的关系。我们随后可以利用这种严格的逻辑表达式搜索回答问题所需的知识。但知识图谱在规模较大的情况下很难处理,因为用户的表达很难严格地与知识图谱匹配。


一般系统会同时检索 QA 对与知识图谱,如果只能检索出一种知识点,那么系统就会返回这一知识点。但如果两种知识点都能检索到,那么系统会根据对话管理与上下文信息对比它们之间的置信度,并选择更好的回答。


这一过程其实与一般的对话系统非常相似,但会话精灵更注重的是生成回答之后,系统该如何引导问答的发展。初敏说:「当系统回答问题后,我们能获取当前的话题,因此系统需要对后续的话题进行规划。也许下一步还处于当前话题,也许就跳到了下一个话题,但这些话题内都有系统建议的另外一些知识点。」这些知识点可能是以提问的形式指出,例如系统在回答了关于长短期记忆(LSTM)网络的问题后,它可能会问「你想不想进一步了解门控循环神经网络(GRU)?」


当然,用户可以对系统提出的问题进行选择性接受,也可以重新对其它关心的问题进行提问。但用户再一次提问后,系统会给出回答并重新进行规划,这种提问与规划的循环可以一直持续到用户获得了足够多的知识。


知识问答


实现启发式问答还有一个非常重要的问题,即在会话精灵主动提出新的问题时,如何选择候选知识点。初敏说:「选择候选知识点有非常多的策略,例如横向扩展或互补扩展。其实知识图谱可以形象地看作一张表格,表头是该知识点的实体,而表格单元是该实体的属性。系统可以候选相关的实体,也可以候选同一实体的不同属性。」例如在实体为卷积神经网络的知识点中,属性可以是它的层级数,也可以是它做图像分类的效果。而系统同样可以选择展示与卷积神经网络相关的实体,例如全连接网络或循环神经网络等。


微信图片_20211129230810.jpg


选择候选知识点依赖于系统存储的知识结构,因为它可以快速检索类似的知识点。在会话精灵的知识库中,会分为一些话题,比如说监督学习、无监督学习以及强化学习等。而每一个话题会以树状的结构储存知识点,例如监督学习可分为回归问题、分类问题与标注问题等子节点,而分类问题又可以继续向下分为 Logistic 回归、K 近邻、支持向量机和神经网络等子节点。树状结构中每一个节点都可以存储两种知识,即 QA 对与知识卡片。


其中每一个节点可以有多个问答对,问题和答案也可以有多个。而知识卡片即知识图谱,例如在支持向量机这一实体中,大间隔分类、支持向量、核函数等属性就以序列的方式组织在一起,其中核函数又是另一种实体,它又有一些属性。


当系统根据知识库给出了一系列的候选知识点后,它需要判断哪些知识点是重要的,并且需要优先向用户介绍。初敏表示这种排序也有非常多的策略,例如我们可以根据先验概率先初始化各种候选知识点的权重,并给最可能需要了解的知识加一个比较大的权重。然后系统会根据用户反馈进行在线学习以更新权重,直观上来说用户总是接受的知识点应该提高权重,而总是拒绝的知识点应该降低权重。


其实这个对话系统的主干部分并不是基于深度网络的,因为目前很多聊天机器人并没有一个明确的目的,而工业上是有明确的目的需要传播信息,所以工业上的对话系统更多是基于知识图谱与规则系统。不过初敏表示她们正在尝试结合强化学习来更新候选知识点的权重:「很多基于强化学习的聊天机器人很难有优秀的度量方法来衡量对话的质量,也很难判断到底该给回答怎样的奖励。但是像对话精灵这样的架构,强化学习是可以很好地嵌入其中,因为系统可以直接根据用户接受或拒绝推荐的知识点而快速地分配奖励。」


一般在使用强化学习及 Self-play 的方式训练对话机器人的过程中,我们经常根据智能体对话的长度而赋予奖励。但这常常会造成对话陷入一种死循环,也就是说智能体会重复说一些「你好」等正确但又无意义的话语。而对话精灵可以根据用户接受的知识点推荐数而确定真正的对话长度,因此也就能给智能体非常恰当的奖励,依据这种奖励进行对话管理将有非常大的优势。


微信图片_20211129230814.jpg

图 3:基于马尔科夫决策过程(Markov Decision Processes)的对话管理


葛付江表示对话管理一般可以表示成状态的变换过程,即马尔可夫决策过程 [2]。基于强化学习的系统需要将对话组织成状态,并在每一个状态下选择不同的动作或主题规划,且不同的规划能有不一样奖励。对于对话管理,强化学习智能体会模拟多轮对话,并最后反过来判断为当前对话规划什么样的主题比较合适。在整个过程中,奖励函数是非常核心以及难以定义的部分,但会话精灵能有比较好的处理。


参考文献:

[1] Siamese Recurrent Architectures for Learning Sentence Similarity, AAAI,2016

[2] The Markov Assumption in Spoken Dialogue Management, SIGDIAL, 2005



本文为机器之心原创,转载请联系原作者获得授权

相关文章
|
7月前
|
自然语言处理 测试技术 计算机视觉
ICLR 2024:谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测
【4月更文挑战第22天】**TIME-LLM** 论文提出将大型语言模型重编程用于时序预测,克服数据稀疏性问题。通过文本原型重编码和Prompt-as-Prefix策略,使LLMs能处理连续时序数据。在多基准测试中超越专业模型,尤其在少量样本场景下效果突出。但面临跨领域泛化、模型调整复杂性和计算资源需求的挑战。[论文链接](https://openreview.net/pdf?id=Unb5CVPtae)
117 2
|
6天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
66 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
4月前
Sora视频重建与创新路线问题之模型视频的短期时间上下文以预测未来帧,如何处理
Sora视频重建与创新路线问题之模型视频的短期时间上下文以预测未来帧,如何处理
|
7月前
|
人工智能 计算机视觉
让机器准确看懂手物交互动作,清华大学等提出GeneOH Diffusion方法
【5月更文挑战第19天】清华大学等机构的研究人员提出GeneOH Diffusion方法,以提升机器对手物体交互动作的理解。该方法使用去噪扩散模型学习动作的潜在分布,能处理复杂场景并泛化到新动作,增强模型的通用性和适应性。尽管需要大量数据和计算资源训练,且可能在复杂动作识别上存在局限,但其强大的泛化能力对实际应用具有重要意义。[链接](https://arxiv.org/abs/2402.14810)
79 7
|
传感器 Web App开发 运维
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
179 1
|
自然语言处理 监控 机器人
能看图、会聊天,还会跨模态推理和定位,能落地复杂场景的DetGPT来了
能看图、会聊天,还会跨模态推理和定位,能落地复杂场景的DetGPT来了
192 0
|
传感器 机器学习/深度学习 算法
CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效
CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效
232 0
|
机器学习/深度学习 编解码 人工智能
AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用
AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用
233 0
|
机器学习/深度学习 编解码 计算机视觉
真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换
真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换
|
机器学习/深度学习 自然语言处理 算法
谷歌让机器人充当大语言模型的手和眼,一个任务拆解成16个动作一气呵成
谷歌让机器人充当大语言模型的手和眼,一个任务拆解成16个动作一气呵成
277 0