【论文速递】 ACL2022 - 三思而后言:为对话模型显式地生成知识

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: # 【论文速递】 ACL2022 - 三思而后言: 为回答生成任务显式地生成内隐常识

【论文速递】 ACL2022 - 三思而后言: 为回答生成任务显式地生成内隐常识

#
【论文原文】:ACL2022 - Think Before You Speak: Explicitly Generating Implicit Commonsense Knowledge for Response Generation

论文: https://aclanthology.org/2022.acl-long.88/

博主关键词:隐式常识生成, 知识匹配, prompt,可解释性

推荐相关论文

论文:Retrieval-Free Knowledge-Grounded Dialogue Response Generation with Adapters
地址: https://arxiv.org/abs/2105.06232
关联创新点:信息检索式的知识增强模型

摘要

隐式知识,如常识(common sense),是人工智能能够产生流畅人类对话的关键。目前神经回答生成(Response Generation,RG)模型通过训练直接生成回答,忽略了未说明的隐性知识。在本文中。我们提出了一种生成方法:三思而后言(Think-Before-Speaking,TBS)首先将隐性常识知识具体化(Think),然后使用这些知识来产生回(Speak)。作者认为,将内隐知识具象化能允许更有效的学习,产生更多有信息含量的回答,并使模型更容易解释。作者尝试了多种策略来收集与知识相关的对话,表达内隐知识,以及知识和对话之间的过渡。实证结果显示,在大多数指标上,TBS模型的性能优于端到端的 RG模型。经人工标注者评估,TBS模型产生了更多的有信息量的、确切的、遵循常识的回答。在85%的时间里,TBS产生了有意义的知识

简介

人类沟通的目的是为了达成共同点(common ground),包括共同的信念和常识性内容。这种共同点(common ground)不仅取决于说话,还包括有隐性的知识。例如,在Figure 1中,这种共同点(common ground)蕴含了"玫瑰是一种类型的花"这种相关隐性背景知识 。整合这种对话中的共同点是一个隐性的过程,通常被称为建立知识基础(knowledge grounding)。 最近SOTA的神经回答生成(RG)模型是基于预先训练的语言模型(LM),以端到端方式产生回答。预训练模型事先经过训练,利用历史知识做出回应。 然而由于隐知识在对话历史中未被陈述,RG 模型无法显式地学习这些知识基础(knowledge grounding),可能会产生无信息的、 幻化的知识 。Knowledge-grounded RG模型解决了这个问题, 然而,大多数方法都需要基于知识库(KB)对RG进行知识检索,受限于所使用的知识库覆盖范围。 还有一些工作将知识作为一种潜在变量去生成,这使得我们很难检验知识生成的质量以及RG模型如何使用内隐知识,提出了可解释性方面的问题。

在这里插入图片描述

在inquiry-based discovery learning方法的启发下,我们提出了 "三思而后言"(TBS)这一RG框架来显式地生成隐性知识,并使用这些知识生成回答。将端到端方式分解后有三个优点:

  1. 与传统RG相比,生成的知识增强并约束了RG模型,使得模型产生更有信息量的回答;
  2. 与知识检索模型相比,在中间过程显式地生成知识基础,有可能归纳出在知识库范围外的知识,并且与回答生成过程产生协同作用;
  3. RG中显示生成地隐性知识,可以就模型生成回答的内在原因提供更好的可解释性。

这种新的RG范式有三个主要的挑战:

  1. 如何识别与多轮对话相关的隐性常识,以训练知识生成模块;
  2. 如何在自然语言中表示结构化的知识?
  3. 如何将知识和对话整合起来,同时又能在回答中区分出隐性和显性部分。

在这里插入图片描述

针对这三个问题,本文的主要解决思路是:

  1. 为了收集与每个对话实例相关的知识,以训练TBS生成模型,本文提出了一种弱监督方法,将知识与每个对话回合自动对齐。作者使用ConceptNet作为知识库,尝试不同的匹配方法,包括Hard-Matching和基于embedding相似度的Soft-Matching来识别隐性知识。
  2. 作者探索了几种方法,将结构化为三要素的知识格式化为自然语言,以便RG模型能够轻松适应知识+回答的生成任务。作者实验了结构化的三元组、转换为自然语言的三元组、以及一种更口语化的问答格式。
  3. 为了保证知识和对话之间的平稳过渡,本文使用特殊符号或提示语作为分隔符。

另外,为了评估TBS框架,本文引入了新的评价指标,以涵盖系统的不同方面,包括回答质量、知识质量,以及TBS模型如何利用生成的知识。作者对模型的不同变体进行了广泛人工评估。实验结果表明,与端到端RG模型和其他知识增强的模型(如知识选择)相比,TBS模型产生了更有信息量,更确切,更符合常识的回答。知识质量分析表明,至少有85%的生成知识是相关且有意义的,而且生成的知识库外的新知识也有很高的质量。

文章的主要创新点如下:

  • 本文将端到端的RG模型分解,提出了一种回答生成模型的新范式,即首先显式地生成隐性知识,然后使用这些知识生成回答。
  • 本文提出了一种弱监督方法来将知识与对话自动对齐。基于外部知识库作者提出了Hard-Matching和基于embedding相似度的Soft-Matching来识别隐性知识 。
  • 本文提出了新的评价指标来衡量回答生成的质量、知识的质量以及模型利用知识的程度。TBS模型不仅比传统RG模型有更好的性能,还有更好的可解释性

【论文速递 | 精选】

论坛地址:https://bbs.csdn.net/forums/paper

目录
相关文章
|
负载均衡 算法
ribbon的7种负载均衡算法和替换方法
ribbon的7种负载均衡算法和替换方法
452 0
ribbon的7种负载均衡算法和替换方法
|
前端开发 关系型数据库 数据库
使用 Flask 连接数据库和用户登录功能进行数据库的CRUD
使用 Flask 连接数据库和用户登录功能进行数据库的CRUD
557 0
|
负载均衡 应用服务中间件 nginx
Django通过Nginx和uWSGI实现负载均衡
Django通过Nginx和uWSGI实现负载均衡
441 0
|
机器学习/深度学习 数据挖掘
【提示学习】HPT: Hierarchy-aware Prompt Tuning for Hierarchical Text Classification
本文是较早把Prompt应用到层级多标签文本分类领域的论文。思路是把层级标签分层编入到Pattern中,然后修改损失函数以适应多标签的分类任务。
517 0
|
9月前
|
人工智能 Linux iOS开发
Linux下搭建本地deepseek(附文档下载)
本文介绍了在Linux上搭建本地DeepSeek的步骤。主要涉及安装ollama、下载deepseek模型(1.5b参数版本)和配置ChatboxAI客户端。通过命令行安装ollama后,使用`ollama run deepseek-r1:1.5b`下载模型,并配置环境变量以确保服务正常运行。最后,通过ChatboxAI与模型进行交互。整个过程适合初学者,服务器配置为4核CPU和8GB内存,无GPU,响应速度稍有延迟但可接受。相关资源链接已提供。
1173 2
|
人工智能 运维 安全
阿里云连续两年入选Gartner® DaaS魔力象限
近日,Gartner发布2024年《Daas魔力象限》报告,阿里云再次入围该魔力象限报告,成为国内唯一连续两年入选的云厂商。
|
数据采集 机器学习/深度学习 人工智能
【大语言模型】人类反馈在大语言模型对齐中的可靠性有多高?
当今的对齐研究大多集中在设计新的学习算法上,使用的是如Anthropic-HH这样的数据集,这些研究假设人类反馈数据本质上是可靠的。然而,对于人类反馈的定性不可靠性及其对对齐的影响,关注甚少。为了填补这一空白,我们进行了一项全面研究,并提供了对人类反馈数据的深入分析。
|
安全 Linux 网络安全
登录神器:Hydra 保姆级教程
登录神器:Hydra 保姆级教程
|
消息中间件 关系型数据库 MySQL
MySQL 到 Kafka 实时数据同步实操分享(1),字节面试官职级
MySQL 到 Kafka 实时数据同步实操分享(1),字节面试官职级
|
Java 程序员 C++
Java中CAS详解
Java中CAS详解
349 0

热门文章

最新文章