自然语言处理曾被认为是人工智能皇冠上的璀璨明珠,现如今再随着图像识别等技术的长足进步,这颗明珠似乎也显得有些暗淡无光了。
但是,一篇来自阿里巴巴研究团队提交到EMNLP 2019的关于自然语言生成文章,似乎为自然语言处理领域重现昔日荣光找到方向。
对于技术发展缓慢的解释,众说纷纭。我们都希望通过自然语言理解技术使机器像人一样,具备正常人的语言理解能力,可不管期望多美好,似乎目前的现实是,包括自然语言生成在内的自然语言处理领域陷入了发展的困境。
那么,这篇来自阿里巴巴的论文究竟有什么样的力量,让整个研究领域看到希望?
在这之前我们来回忆一个流传较广的小故事:
日本最大的化妆品公司收到客户抱怨,客户说他们买来的洗面皂盒子里面是空的,化妆品公司为了预防生产线再次发生这样的事情,于是便请工程师很努力辛苦的研发了一台“X-光监视器”去透视每一台出货的香皂盒,当然漏装的盒子都可被检查出来。而同样的问题也发生在另一家小公司,他们的解决方法是买一台强力工业用电扇,放在输送机末端,去吹每个香皂盒,被吹走的便是没放香皂的空盒。
我们经常用这样的小故事来告诫自己,面对一个既定想要实现的目标,当利用现有的方式方法很难再获得较大进步时,或者想要继续取得进步需要付出非常大代价时,适当的转变思考或者解决问题的角度,往往会有柳暗花明的情形出现。
回归正题,上面的小故事与阿里研究团队该次发表的论文相似的地方在于解决问题的思路非常相似。
在这篇论文中,阿里研究人员解释到,与现有的有关知识感知QA的工作不同,阿里研究团队未沿着当前的研究思路继续前进,而是将重点放在更具挑战性的任务上,即利用外部知识针对上下文的给定问题生成自然的答案。
相对于其他的神经模型,阿里巴巴研究团队提出的的新的神经体系结构,专门设计用于通过整合外部知识来生成更加丰富也更加贴近实际生活的自然语言答案。
阿里团队的方案
为何需要补充外部知识
在机器理解任务中,我们要根据给定的段落回答问题,答案通常是段落的一部分。但是由于缺乏常识和背景知识,机器可能无法理解某些联系或无法回答某些问题,例如:
提问:巴拉克·奥巴马(Barack Obama)出生于美国吗?
回答:星期一的夏威夷州政府说,他们再次检查并确认巴拉克·奥巴马总统出生在夏威夷。
在回答这个问题时,人们除了必要的信息,还必须知道夏威夷是美国的一个州。可是对于机器来说,这就是文本语料库中没有的外部知识。因此,要想回答许多类似这样的平凡的问题,需要为QA模型适当地补充外部知识。
补充的外部知识从何而来
阿里研究团队称新的神经模型为知识丰富的答案生成器,简称KEAG,它能够利用知识库中的符号知识来生成答案中的每个单词。特别是,研究人员假设每个单词都是从以下四个信息源中的一个生成的:1、问题,2、段落,3、词汇和4、知识。
如何从来源中选取需要的知识
为了实现这个目标,研究人员引入了“源选择器”,它是KEAG中的一个定点组件,允许灵活地决定寻找哪个源来生成每个答案词。在阿里研究团队看来,“源选择器”实现的功能是至关重要的。虽然外部的知识的确在答案的某些部分中起着重要作用,但是在答案的其余部分,给定的文本信息还是应该优先外部知识进行考虑。
KEAG架构
首先,介绍一下KEAG架构。
问题和段落经过扩展后,将结果输入到源选择器中以生成自然的答案。
△ KEAG架构
一切从源选择器的每次迭代开始,在生成答案的过程中,每次迭代,KEAG都从运行源选择器开始,从问题,段落,词汇和知识其中一个源中选择一个单词。
△ 说明了源选择器在解码过程中如何在一个完整迭代中工作
在迭代之后,如何将选择的各种知识进行整合成为关键一环,在这一部分,主要涉及两个重要操作,即针对一个给定的问题从知识库中提取相关事实,然后从中选择可以用于答案组合的最相关事实。
△ 相关事实提取与事实选择
实现上述功能的原理如上图所示,显示了如何从一组相关事实中选择一个事实以完成答案。
KEAG实战表现如何
鉴于研究团队的目标是通过文档阅读生成自然的答案,因此,Microsoft发布的MARCO数据集(Nguyen等,2016)是基准测试KEAG和其他答案生成方法的最佳选择。
研究人员使用最新的MARCO V2.1数据集,并专注于评估中的“ Q&A +自然语言生成”任务,这个任务的目标是提供最佳的可以被智能设备/数字助理使用的自然语言答案。
鉴于MARCO测试集中没有真正的答案,所以在实验中采用拥有12467个QA对的开发集进行评估。评估工具使用的指标沿用MARCO官方使用的BLEU-1和ROUGE-L,以期达到根据基本事实评估生成的答案的质量的目的。
而外部知识的来源库,研究团队使用的是ConceptNet,ConceptNet是一个语义网络,表示单词和短语以及它们之间的常识关系。这是使用最广泛的常识知识库之一。在过滤掉很少事实的非英语实体和关系类型之后,仍然有2,823,089个事实三元组和32个关系类型供模型使用。
在此需要强调的一点是:KEAG具有通用性,因此也可以应用于其他知识库。
在培训和测试阶段,研究人员将一段文字截断为800个单词,并将答案的长度限制为120个单词。利用16个Tesla M40 GPU进行训练。在测试时,使用大小为4搜索生成答案。
在上文前提下,获得了KEAG与其他模型比较的结果:
从图中我们可以看到,在回答质量方面,抽象的QA模型(例如KEAG)始终优于提取类模型(例如BiDAF)。
因此,抽象的QA模型建立了强大的基础架构,可以通过外部知识加以增强,从而加强了这项工作。在抽象模型中,gQA可以看作是KEAG的简化形式,它无需使用知识即可从段落和词汇中生成答案词。
另外,KEAG包含了随机源选择器,而gQA没有。KEAG明显优于gQA的结果证明了KEAG架构的有效性和知识整合的好处。
下图显示了KEAG的指标与同样利用了知识的最新QA模型的指标比较结果:
从图中可以清楚地看到,在知识丰富的答案生成模型中,KEAG的Rouge-L和Bleu-1得分最高,表现最佳。这主要得益于KEAG与其他模型之间不同的将外部知识纳入模型的方式。KEAG利用两个随机选择器来确定何时利用知识以及使用哪个事实。这在利用外部知识生成抽象答案方面带来了更多优势。
由于Rouge-L和Bleu-1都无法根据其正确性和准确性来衡量所生成答案的质量,因此我们还对Amazon Mechanica Turk进行了人工评估。主要评估答案在语法和正确性方面的质量。
上图报告了KEAG的人类评估得分情况,从得分比较来看,KEAG模型在语法上和实质上产生正确的答案方面优于其他所有模型。这证明了其在利用外部知识方面的能力。
接下来的是关于消融研究,进行消融研究目的是评估KEAG中每个组件的单独贡献。
上图是完整KEAG模型及其消融的性能。我们通过从KEAG的架构中删除补充知识和相应的事实选择模块,评估将外部知识作为补充信息纳入到自然答案生成中的贡献。
可以看出,知识部分在生成高质量答案中起着重要作用,在删除补充知识后,Rouge-L降至49.98。最后在检测源选择器的能力时,删除了源选择器的新模型Rouge-L下降明显直至38.33,从而确认了其在生成自然答案中的有效性。
实例介绍
最后,通过研究团队提供的一个例子,来检测整体新的神经模型效用如何,该图可视化了答案中各个单词的来源,可将其分为两部分查看。
第一部分带有源概率的答案部分,分别显示针对从问题,段落,词汇和知识中选择的答案词的热图。具有较高源概率的答案组成部分以深青色突出显示。
第二部分是“按来源涂色的答案”,其中每个单词都根据实际选择的来源涂上颜色。蓝色的单词来自问题,红色来自段落,绿色来自词汇,橙色来自知识。
未来可期
看到这里大家是不是同样也有一些小小的激动呢?
虽然该研究仍然处于起步阶段,但是,正如研究团队在报告中提到的,“这项工作为以有针对性的方式更深入地研究答案生成模型打开了大门”。新的天地已然通过打开的“大门”向所有人展示了它所蕴藏的巨大的价值。
传送门
Incorporating External Knowledge into Machine Reading for Generative Question Answering
Bin Bi, Chen Wu, Ming Yan, Wei Wang, Jiangnan Xia, Chenliang Li
https://arxiv.org/pdf/1909.02745.pdf