阿里的问答模型新思路:利用外部知识增加QA答案自然程度

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 自然语言处理曾被认为是人工智能皇冠上的璀璨明珠,现如今再随着图像识别等技术的长足进步,这颗明珠似乎也显得有些暗淡无光了。但是,一篇来自阿里巴巴研究团队提交到EMNLP 2019的关于自然语言生成文章,似乎为自然语言处理领域重现昔日荣光找到方向

自然语言处理曾被认为是人工智能皇冠上的璀璨明珠,现如今再随着图像识别等技术的长足进步,这颗明珠似乎也显得有些暗淡无光了。

但是,一篇来自阿里巴巴研究团队提交到EMNLP 2019的关于自然语言生成文章,似乎为自然语言处理领域重现昔日荣光找到方向。

对于技术发展缓慢的解释,众说纷纭。我们都希望通过自然语言理解技术使机器像人一样,具备正常人的语言理解能力,可不管期望多美好,似乎目前的现实是,包括自然语言生成在内的自然语言处理领域陷入了发展的困境。

image

那么,这篇来自阿里巴巴的论文究竟有什么样的力量,让整个研究领域看到希望?

在这之前我们来回忆一个流传较广的小故事:

日本最大的化妆品公司收到客户抱怨,客户说他们买来的洗面皂盒子里面是空的,化妆品公司为了预防生产线再次发生这样的事情,于是便请工程师很努力辛苦的研发了一台“X-光监视器”去透视每一台出货的香皂盒,当然漏装的盒子都可被检查出来。而同样的问题也发生在另一家小公司,他们的解决方法是买一台强力工业用电扇,放在输送机末端,去吹每个香皂盒,被吹走的便是没放香皂的空盒。

我们经常用这样的小故事来告诫自己,面对一个既定想要实现的目标,当利用现有的方式方法很难再获得较大进步时,或者想要继续取得进步需要付出非常大代价时,适当的转变思考或者解决问题的角度,往往会有柳暗花明的情形出现。

回归正题,上面的小故事与阿里研究团队该次发表的论文相似的地方在于解决问题的思路非常相似。

在这篇论文中,阿里研究人员解释到,与现有的有关知识感知QA的工作不同,阿里研究团队未沿着当前的研究思路继续前进,而是将重点放在更具挑战性的任务上,即利用外部知识针对上下文的给定问题生成自然的答案。

相对于其他的神经模型,阿里巴巴研究团队提出的的新的神经体系结构,专门设计用于通过整合外部知识来生成更加丰富也更加贴近实际生活的自然语言答案。

阿里团队的方案

为何需要补充外部知识
在机器理解任务中,我们要根据给定的段落回答问题,答案通常是段落的一部分。但是由于缺乏常识和背景知识,机器可能无法理解某些联系或无法回答某些问题,例如:

提问:巴拉克·奥巴马(Barack Obama)出生于美国吗?

回答:星期一的夏威夷州政府说,他们再次检查并确认巴拉克·奥巴马总统出生在夏威夷。

在回答这个问题时,人们除了必要的信息,还必须知道夏威夷是美国的一个州。可是对于机器来说,这就是文本语料库中没有的外部知识。因此,要想回答许多类似这样的平凡的问题,需要为QA模型适当地补充外部知识。

补充的外部知识从何而来

阿里研究团队称新的神经模型为知识丰富的答案生成器,简称KEAG,它能够利用知识库中的符号知识来生成答案中的每个单词。特别是,研究人员假设每个单词都是从以下四个信息源中的一个生成的:1、问题,2、段落,3、词汇和4、知识。

如何从来源中选取需要的知识

为了实现这个目标,研究人员引入了“源选择器”,它是KEAG中的一个定点组件,允许灵活地决定寻找哪个源来生成每个答案词。在阿里研究团队看来,“源选择器”实现的功能是至关重要的。虽然外部的知识的确在答案的某些部分中起着重要作用,但是在答案的其余部分,给定的文本信息还是应该优先外部知识进行考虑。

KEAG架构

首先,介绍一下KEAG架构。

问题和段落经过扩展后,将结果输入到源选择器中以生成自然的答案。

image

△ KEAG架构

一切从源选择器的每次迭代开始,在生成答案的过程中,每次迭代,KEAG都从运行源选择器开始,从问题,段落,词汇和知识其中一个源中选择一个单词。

image

△ 说明了源选择器在解码过程中如何在一个完整迭代中工作

在迭代之后,如何将选择的各种知识进行整合成为关键一环,在这一部分,主要涉及两个重要操作,即针对一个给定的问题从知识库中提取相关事实,然后从中选择可以用于答案组合的最相关事实。

image

△ 相关事实提取与事实选择

实现上述功能的原理如上图所示,显示了如何从一组相关事实中选择一个事实以完成答案。

KEAG实战表现如何

鉴于研究团队的目标是通过文档阅读生成自然的答案,因此,Microsoft发布的MARCO数据集(Nguyen等,2016)是基准测试KEAG和其他答案生成方法的最佳选择。

研究人员使用最新的MARCO V2.1数据集,并专注于评估中的“ Q&A +自然语言生成”任务,这个任务的目标是提供最佳的可以被智能设备/数字助理使用的自然语言答案。

鉴于MARCO测试集中没有真正的答案,所以在实验中采用拥有12467个QA对的开发集进行评估。评估工具使用的指标沿用MARCO官方使用的BLEU-1和ROUGE-L,以期达到根据基本事实评估生成的答案的质量的目的。

而外部知识的来源库,研究团队使用的是ConceptNet,ConceptNet是一个语义网络,表示单词和短语以及它们之间的常识关系。这是使用最广泛的常识知识库之一。在过滤掉很少事实的非英语实体和关系类型之后,仍然有2,823,089个事实三元组和32个关系类型供模型使用。

在此需要强调的一点是:KEAG具有通用性,因此也可以应用于其他知识库。

在培训和测试阶段,研究人员将一段文字截断为800个单词,并将答案的长度限制为120个单词。利用16个Tesla M40 GPU进行训练。在测试时,使用大小为4搜索生成答案。

在上文前提下,获得了KEAG与其他模型比较的结果:

image

从图中我们可以看到,在回答质量方面,抽象的QA模型(例如KEAG)始终优于提取类模型(例如BiDAF)。

因此,抽象的QA模型建立了强大的基础架构,可以通过外部知识加以增强,从而加强了这项工作。在抽象模型中,gQA可以看作是KEAG的简化形式,它无需使用知识即可从段落和词汇中生成答案词。

另外,KEAG包含了随机源选择器,而gQA没有。KEAG明显优于gQA的结果证明了KEAG架构的有效性和知识整合的好处。

下图显示了KEAG的指标与同样利用了知识的最新QA模型的指标比较结果:

image

从图中可以清楚地看到,在知识丰富的答案生成模型中,KEAG的Rouge-L和Bleu-1得分最高,表现最佳。这主要得益于KEAG与其他模型之间不同的将外部知识纳入模型的方式。KEAG利用两个随机选择器来确定何时利用知识以及使用哪个事实。这在利用外部知识生成抽象答案方面带来了更多优势。

由于Rouge-L和Bleu-1都无法根据其正确性和准确性来衡量所生成答案的质量,因此我们还对Amazon Mechanica Turk进行了人工评估。主要评估答案在语法和正确性方面的质量。

image

上图报告了KEAG的人类评估得分情况,从得分比较来看,KEAG模型在语法上和实质上产生正确的答案方面优于其他所有模型。这证明了其在利用外部知识方面的能力。

接下来的是关于消融研究,进行消融研究目的是评估KEAG中每个组件的单独贡献。

image

上图是完整KEAG模型及其消融的性能。我们通过从KEAG的架构中删除补充知识和相应的事实选择模块,评估将外部知识作为补充信息纳入到自然答案生成中的贡献。

可以看出,知识部分在生成高质量答案中起着重要作用,在删除补充知识后,Rouge-L降至49.98。最后在检测源选择器的能力时,删除了源选择器的新模型Rouge-L下降明显直至38.33,从而确认了其在生成自然答案中的有效性。

实例介绍

最后,通过研究团队提供的一个例子,来检测整体新的神经模型效用如何,该图可视化了答案中各个单词的来源,可将其分为两部分查看。

image

第一部分带有源概率的答案部分,分别显示针对从问题,段落,词汇和知识中选择的答案词的热图。具有较高源概率的答案组成部分以深青色突出显示。

第二部分是“按来源涂色的答案”,其中每个单词都根据实际选择的来源涂上颜色。蓝色的单词来自问题,红色来自段落,绿色来自词汇,橙色来自知识。

未来可期

看到这里大家是不是同样也有一些小小的激动呢?

虽然该研究仍然处于起步阶段,但是,正如研究团队在报告中提到的,“这项工作为以有针对性的方式更深入地研究答案生成模型打开了大门”。新的天地已然通过打开的“大门”向所有人展示了它所蕴藏的巨大的价值。

传送门

Incorporating External Knowledge into Machine Reading for Generative Question Answering
Bin Bi, Chen Wu, Ming Yan, Wei Wang, Jiangnan Xia, Chenliang Li
https://arxiv.org/pdf/1909.02745.pdf

原文发布时间:2019-12-04
本文作者:宋恒宇
本文来自云栖社区合作伙伴“量子位”,了解相关信息可以关注“量子位

相关文章
|
21小时前
|
JSON 人工智能 自然语言处理
Way To Prompt系列(1): 为什么大模型连"Strawberry"的"r"都数不对?一招“理由先行”显著提升模型思考能力
本文将从两个常见的大模型翻车问题入手解析这些问题背后体现的大模型技术原理(Tokenization与预测下一个Token),并解释了为什么会导致这些问题,接着我们利用CoT(思维链)方法解决这些问题并基于上述原理试图剖析CoT方法起作用的可能原因,最后提出【理由先行】风格这一简单有效的Prompt Trick。
11 1
|
21天前
|
机器学习/深度学习 分布式计算 算法框架/工具
大模型的内部结构复杂,导致其决策过程难以解释,这对于某些应用场景来说是不可接受的。
【10月更文挑战第23天】随着人工智能技术的发展,越来越多的企业开始探索大模型的私有化部署。本文详细介绍了在企业内部实现大模型私有化部署的方法,包括硬件配置、数据隐私保护、模型可解释性提升以及模型更新和维护等方面的解决方案,帮助企业克服相关挑战,提高数据处理的安全性和效率。
31 4
|
1月前
|
人工智能 前端开发
大模型体验体验报告:OpenAI-O1内置思维链和多个llm组合出的COT有啥区别?传统道家理论+中学生物理奥赛题测试,名不虚传还是名副其实?
一个月前,o1发布时,虽然让人提前体验,但自己并未进行测试。近期终于有机会使用,却仍忘记第一时间测试。本文通过两个测试案例展示了o1的强大能力:一是关于丹田及练气的详细解答,二是解决一道复杂的中学生物理奥赛题。o1的知识面广泛、推理迅速,令人印象深刻。未来,或许可以通过赋予o1更多能力,使其在更多领域发挥作用。如果你有好的测试题,欢迎留言,一起探索o1的潜力。
|
27天前
|
人工智能 人机交互 智能硬件
从大模型的原理到提示词优化
本文介绍了大语言模型(LLM)的基本概念及其工作原理,重点探讨了AI提示词(Prompt)的重要性和几种有效技巧,包括角色设定、One-shot/Few-shot、任务拆解和思维链。通过实例解析,展示了如何利用这些技巧提升LLM的输出质量和准确性,强调了提供高质量上下文信息对优化LLM表现的关键作用。
43 0
|
4月前
|
机器学习/深度学习 开发框架 数据可视化
我们可以从系统工程的角度来讨论如何优化组织架构,并给出一些可能涉及的Python应用领域的示例。
我们可以从系统工程的角度来讨论如何优化组织架构,并给出一些可能涉及的Python应用领域的示例。
|
安全 搜索推荐 测试技术
【实测】用chatGPT来完整的走一次测试流程吧,看看它到底相当于我们什么等级的工程师?
【实测】用chatGPT来完整的走一次测试流程吧,看看它到底相当于我们什么等级的工程师?
|
机器学习/深度学习 自然语言处理 算法
【网安AIGC专题10.25】论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性
【网安AIGC专题10.25】论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性
142 0
思维模型No.32|如何真正改变行为?需要5种不同的干预策略
思维模型No.32|如何真正改变行为?需要5种不同的干预策略
175 0
|
机器学习/深度学习 数据采集 人工智能
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
240 0
|
算法 搜索推荐
认知算法(十一)
认知算法(十一),一起来学习吧。