2020年4月20-24日,国际顶级学术会议WWW2020(The Web Conference 2020)在中国台湾举办。创办于1994年的WWW会议,是CCF-A类会议,每年有大批的学者、研究人员、技术专家、政策制定者等参与。
据悉,受COVID-19疫情影响,WWW2020将在线上举行。此次会议共收到了1129篇论文投稿,录用217篇,录取率仅为19.2%。其中蚂蚁金服有多篇论文入选,围绕智能服务、认知计算等课题,向行业分享自身沉淀的金融智能应用成果。
事实上,蚂蚁金服一直是国际顶级学术会议的“常客”。除了WWW,蚂蚁金服也多次亮相NeurIPS、ICML、ICLR、AAAI、IJCAI、SIGIR、NAACL、VLDB、ACM T-IST、KDD、CVPR 等国际顶级学术会议,为学界带来了诸多结合实际业务场景的创新研究和应用。对蚂蚁金服而言,在顶级学术会议上发布论文,一方面可推进人工智能最前沿研究的发展,将学术研究与应用相结合,另一方面可推进前沿技术从研究到实际应用中落地,为用户带来价值,为我们的生活服务带来改变。
接下来,小蚂蚁将为大家重点介绍本次蚂蚁金服入选的论文成果。
Enhanced-RCNN: 一种高效的比较句子相似性的方法
句子相似度计算,是贯穿智能客服离线、在线和运营等几乎所有环节最核心的技术,同时也是自然语言理解中最核心的问题之一,广泛应用于搜索、推荐、对话等领域。当前比较句子相似性的方法主要分为3种:表示型(Siamese Network Framework)、交互型(Matching-Aggregation Framework)和预训练语言模型(Pre-trainedLanguage Model)。
在本篇论文中,我们提出了一种新型高效的比较句子相似性的方法 Enhanced-RCNN,来更好的捕捉待比较的两个文本自身以及相互之间的信息。这是我们在经典文本匹配模型 ESIM的基础上改进的模型,该模型在 Quora Question Pair 和 Ant Financial 两个公开的文本匹配数据集上均取得了非常有竞争力的结果,并且和时下火热的预训练语言模型 BERT 相比,Enhanced-RCNN 也取得了相当的效果,其中参数量相比BERT-Base 也大幅减少,较为适合用于线上部署使用。同时,通过一些知识蒸馏的方法(KnowledgeDistillation),也可以将Enhanced-RCNN作为学生模型(Student Model)去学习BERT-Base,即老师模型,来进一步提升原有Enhanced-RCNN模型的预测准确率。
IntentDial: An Intent Graph based Multi-Turn Dialogue System with Reasoning Path Visualization(基于意图图谱的路径推断可视化多轮对话系统)
在一般智能问答系统中,常见的形式是:用户提出问题,系统识别用户意图并给出回答或者引导解决。其中正确理解识别用户问题的意图十分重要,正常情况下我们可将这一识别过程当作是一个分类任务处理,用深度神经网络对数据进行训练预测。其中在我们构建意图库的时候,我们将收集用户最真实的意图并对应提供解决方案,对于用户描述清晰完备的情况下,我们可在意图库中找到一个对应的意图,而事实上在一些较复杂的问题上,部分用户在表达意图时,能一次性将所有信息表诉完备是较困难的,此时则需要和用户进一步进行多轮QA从而定位用户意图。
本论文中,蚂蚁金服工程师创新性在智能问答中结合图谱结构和强化学习进行建模,(1)通过引入图谱结构,可将问答相关的领域先验知识引入模型训练,加速强化学习模型收敛,同时模型结果为当前上下文获得的图谱路径推断,可解释性高,一方面可用于指导分析模型训练过程中出现的问题,另一方面路径推断中的要素节点可作为实体识别结果用于对话其他模块。(2)通过采取该多轮对话方式,可以有效同时解决对话过程中用户描述清晰和模糊的情况,扩展性高。
A Generic Solver Combining Unsupervised Learning and Representation Learning for Breaking Text-Based Captchas(基于自监督表征学习的验证码识别方法)
随着互联网的高速发展,越来越多的自动化破解程序给网络安全带来不小的挑战。验证码以其简单高效的特征,目前已经成为了互联网安全的基本保障程序。虽然当前已经有许多可供选择的验证码方案,但由于用户偏好和易于设计的特性,基于文本的验证码类型仍然是维护互联网安全和防止恶意攻击的最流行的安全机制之一。而文本验证码的安全特征对验证码安全性方面起着十分重要的作用,因此作为学术研究去自动识别破解文本验证码,可以发现现有验证码所存在的漏洞,有利于网站开发人员设计出更加安全的验证码体系,保障网络安全。
在过去的十多年里,人们已经提出了多种验证码破解方法,其中许多方法需要针对不同的验证码类型使用独特的滤波和分割方法来实现字符识别,这类方法的泛化性较差,且需要过多的人工参与。随着更复杂的安全特性被引入到文本验证码中,这些方法也不再适用。而一些基于深度学习的验证码识别算法在准确性上取得了显著的提高,但这些方法的主要问题是需要大规模的带有标签的训练样本参与训练,而这通常需要耗费大量的人工成本。
大规模带有标签验证码图像难以收集,但是无标签的图像样本却是很容易大量采集得到。在深度学习领域中,无监督学习和表征学习都可以减少对于标签样本的依赖,充分利用无标签数据样本去学习数据表征,提升深度学习方法的性能。我们通过设计了一个结合无监督学习和表征学习的验证码识别方案,在不依赖人工参与和大规模带标签训练样本的前提下,实现文本验证码的自动识别。经过实验测试发现,我们的方法仅仅使用500张带有标签的训练样本就可以破解大多数主流网站的验证码,这也说明了目前文本验证码的部分安全特征很容易破解。通过我们所提出的方法可以发现现有验证码的漏洞,并且分析不同安全特征的有效性,从而开发出更安全可靠的验证码。
Solving Billion-Scale Knapsack Problems(求解亿级变量背包问题)
背包问题 (knapsack problem) 是经典的整数规划问题,求解如何从多个物品中选取一个子集放入背包,在容量限制下最大化子集的效用。互联网场景下很多问题可以看成超大规模的背包问题或者它的变种问题,比如红包营销,用户流量分配等,都有某种总资源的限制,需要在大量的用户粒度的决策中选取一个子集来最大化业务收益。由于背包问题是 NP-hard,求解复杂度高,所以精确算法无法做较大规模的求解。而近似类算法对问题的形式化有具体要求,实际业务的需求一般不会严格符合背包问题的定义,所以需要求解算法有更强的泛化性和通用性。因此,如何在高精度下求解超大规模背包问题及其变种问题仍然是一个挑战。
蚂蚁金服的工作是最早做到对亿级变量的背包问题求解工作之一。我们的问题形式化涵盖了互联网海量数据场景下的泛化背包问题。它的“物品”有两个维度:用户和选项,即“为每位用户选择哪些选项”。它的“背包容量”扩展到了多个维度,即每个用户的每个选项可以消耗多个不同的资源。同时我们还支持对每个用户的选项做任意整数规划的约束。
用于图像检索的等距离等分布三元组损失函数
图像检索由于类内差异大、类间相似性高,非常具有挑战性。深度度量学习在该任务上取得了一定的效果。然而,最为经典的深度度量学习损失函数——三元组损失,存在一定的问题。首先,三元组损失约束了匹配对和不匹配对间的距离差异至少为一个固定间隔值,由于没有直接约束匹配对或者不匹配对的距离,使得局部范围内三元组满足间隔约束时不能保证全局范围内也满足。其次,改进的三元组损失进一步约束所有匹配对距离小于某个固定值以及所有不匹配对的距离大于某个固定值,这种固定值约束没有考虑到图像不同类别的独特性,容易造成特征空间扭曲。因此,为了在全局范围内进一步拉近匹配对的距离和推远不匹配对的距离,在三元组损失的间隔约束基础上,我们针对匹配对和不匹配对分别进行了相对距离约束。
在本篇论文中,蚂蚁金服工程师提出了EET方法,通过等距离约束进一步拉近匹配对的距离,等分布约束进一步推远不匹配对的距离,最终实验结果亦表明该方法可以用在多个检索任务上。