9月24日,全球高级别金融科技大会——“外滩大会”在上海举行,并现场发布了《2021全球10大金融科技趋势》,从可信、智能和普惠三个维度预测了金融科技未来的走势,知识图谱与多模态学习位列其中。
作为人工智能的重要基石,知识图谱技术被广泛应用于金融、制造、医疗、教育、新零售、社交网络等众多领域,蚂蚁也一直将其作为重要研发方向之一。日前,顶级国际会议EMNLP 2020 录取结果出炉,蚂蚁图谱&NLP团队论文《Question Directed Graph Attention Network forNumerical Reasoning over Text》被收录,并在离散数值推理DROP榜单位列第一。
EMNLP是计算机语言学和自然语言处理领域的顶级国际会议,由国际语言学会(ACL)旗下SIGDAT组织,每年举办一次,聚焦于自然语言算法在各个领域解决方案的学术探讨。DROP是一个著名的国际评测任务,由AI2(Allen Institute for AI)发起, 用于测试计算机在语言理解中的数学推理能力,吸引了谷歌、微信、平安科技、UC Berkeley大学等全球知名科技公司和高校参与。去年,蚂蚁图谱&NLP团队在单模型和Ensemble 模型上获得第一名,并维持了3个月,今年在预训练模型基座排行榜中,蚂蚁图谱&NLP团队再次位列第一。
事实上,蚂蚁一直是国际顶级学术会议的“常客”。除了EMNLP,蚂蚁也多次亮相NeurIPS、ICML、ACL、ICLR、AAAI、WWW、IJCAI、SIGIR、NAACL、VLDB、ACM T-IST、KDD、CVPR 等国际顶级学术会议,为学界带来了诸多结合实际业务场景的创新研究和应用。对蚂蚁而言,在顶级学术会议上发布论文,一方面可推进人工智能最前沿研究的发展,将学术研究与应用相结合,另一方面可推进前沿技术从研究到实际应用中落地,为用户带来价值,为我们的生活服务带来改变。
接下来,将为大家重点介绍本次蚂蚁图谱&NLP团队登顶DROP榜单的论文成果。
论文《Question Directed Graph Attention Network forNumerical Reasoning over Text》,介绍了在预训练语言模型的基础上,蚂蚁图谱&NLP团队提出的QDGAT(Question-Directed Graph AttentionNetwork),能够使模型拥有更强的推理能力和更好的解释性。
预训练模型是目前自然语言模型的底座,其中人工知识的融入能够显著提升模型的性能。由蚂蚁研究人员提出的QDGAT,通过构建实体与数值之间的异构图来建模文章上下文和问题中的关键要素,并基于一种问题导向的图注意网络来驱动多步数值推理,模拟人类的感知和推理的方式,从而对文章和问题的关联关系进行显式建模。
QDGAT对模型的数值推理能力进行了针对性的优化,并做出了两个核心贡献:
1.显式建立了同类型数字间的联系以及实体、数字之间的联系:同类型数字间的联系是数字推理模型的一个强约束,这类联系提示模型可以在这些关联数值上进行合法的计算。数值和实体间关系的引入缩小了模型的推理空间。
2.设计了一个特定的推理模块,根据问题驱动推理过程:问答任务中的问题提示了推理的路径,问题的语义表示可以帮助定位问题所指向的重要数字。
如下表,展示了一个具体的任务样例,包含一个文档和一个问题,以及相应的答案。其中该问题是关于人口的,多个数字(红色部分)被提到表示一些是人数,一些是日期。在给定的数字类型和实体情况下,如果该模型能够利用问题的语义信息来学习,推理难度将大大降低。
DROP阅读理解的一个样例,其中包含数值推理
我们通过图的方式,将数字和同一句子中的实体连接起来,表示它们同时出现。
在第一轮中,通过给定一个问题,模型关注一个子图,该子图包含西班牙(Spanish)和葡萄牙(Portuguese)实体,因为它们在问题中被提及。在更新过程中,模型学习区分数字和日期,并提取与问题相关的数字, 在第二轮中,数字表示通过给定的实体和问题更新。
模型推理过程示意图
模型
为了实现上述要点,我们设计了一个新颖的阅读理解模型。它由三个部分组成,分别是语义抽取底座,比如BERT/RoBERTa/ALBERT,以及异构图推理模块和预测模块。
QDGAT的模块框架
语义抽取底座接受问题Q和文档P的输入,输出他们对应的表征。在异构图推理模块中,我们构造了实体-数值异构图,并且用不同类型的边表示数值的类型。相同数值类型的数字相连,在相同句子中的实体和数字相连。该异构图明确说明了数值和实体之间的关联,提供了推理所需的额外信息,降低了逻辑推理的难度。在该异构图的基础上,我们设计了一种特殊的图推理模块。该模块能够根据问题来直接指导推理过程。具体的,我们将问题Q转化为一个向量,并将其显式地加入到图网络中,从而使得图网络和问题推理的交互更多。在预测模块中,我们使用3种不同类型的预测方式,包括片段抽取、数值计算、计数。
工程优化
我们在8x16G的V100上采用混合精度、分布式训练等加速技术。在采用ALBERT XXLarge语言模型时会发生OOM。来自于在资源受限的情况下,我们采用APipe[6]进行模型切分,将一个模型切分到两个卡上,并通过混合了模型并行和层内并行两种方式进行加速。最终,我们优化后的模型能比原始GPipe快10%。
实验
我们在DROP数据集上进行了实验,使用RoBERTa模型做为底座。其中p的下标表示我们对模型做了额外的优化,包括数据增广和迁移学习。NumNet和NumNet+是主要的baseline,来自于腾讯微信模式识别中心团队。可以看到,我们的模型能够取得更好的效果。
DROP数据集上主要的对比结果
我们对两个关键贡献做了对比实验,实验结果如下表所示。其中NH表示去除实体、数值类型异构图,NG表示去除特殊的问题推理模块。该结果表明我们提出的模块的有效性。
DROP数据集上的消融实验结果
同时,我们对模型进行了可视化分析。分析结果表明,QDGAT能够有效解决三种情况的问题,包括(1)需要实体数字间关联的推理,(2)需要数值类型关联的推理,(3)需要问题引导的推理。
模型在DROP数据集中若干样例的效果展示
结论
QDGAT是一个具备数值推理能力的语义理解模型,能够有效提高阅读理解模型在数值推理问题上的效果。定量实验和可视化分析说明了它的有效性,展示了它的推理特点。在构建事理图谱的链路中,发挥重要作用,利用数值推理能力深入解读金融财经事件。