从上千篇论文脱颖而出,支付宝论文凭什么获得WWW2020评委认可?

简介: 蚂蚁金服有多篇论文入选国际顶级学术会议WWW2020,围绕智能服务、认知计算等课题,向行业分享自身沉淀的金融智能应用成果。

2020年4月20-24日,国际顶级学术会议WWW2020(The Web Conference 2020)在中国台湾举办。创办于1994年的WWW会议,是CCF-A类会议,每年有大批的学者、研究人员、技术专家、政策制定者等参与。

据悉,受COVID-19疫情影响,WWW2020将在线上举行。此次会议共收到了1129篇论文投稿,录用217篇,录取率仅为19.2%。其中蚂蚁金服有多篇论文入选,围绕智能服务、认知计算等课题,向行业分享自身沉淀的金融智能应用成果。

事实上,蚂蚁金服一直是国际顶级学术会议的“常客”。除了WWW,蚂蚁金服也多次亮相NeurIPS、ICML、ICLR、AAAI、IJCAI、SIGIR、NAACL、VLDB、ACM T-IST、KDD、CVPR 等国际顶级学术会议,为学界带来了诸多结合实际业务场景的创新研究和应用。对蚂蚁金服而言,在顶级学术会议上发布论文,一方面可推进人工智能最前沿研究的发展,将学术研究与应用相结合,另一方面可推进前沿技术从研究到实际应用中落地,为用户带来价值,为我们的生活服务带来改变。

接下来,小蚂蚁将为大家重点介绍本次蚂蚁金服入选的论文成果。

Enhanced-RCNN: 一种高效的比较句子相似性的方法

句子相似度计算,是贯穿智能客服离线、在线和运营等几乎所有环节最核心的技术,同时也是自然语言理解中最核心的问题之一,广泛应用于搜索、推荐、对话等领域。当前比较句子相似性的方法主要分为3种:表示型(Siamese Network Framework)、交互型(Matching-Aggregation Framework)和预训练语言模型(Pre-trainedLanguage Model)。

在本篇论文中,我们提出了一种新型高效的比较句子相似性的方法 Enhanced-RCNN,来更好的捕捉待比较的两个文本自身以及相互之间的信息。这是我们在经典文本匹配模型 ESIM的基础上改进的模型,该模型在 Quora Question Pair 和 Ant Financial 两个公开的文本匹配数据集上均取得了非常有竞争力的结果,并且和时下火热的预训练语言模型 BERT 相比,Enhanced-RCNN 也取得了相当的效果,其中参数量相比BERT-Base 也大幅减少,较为适合用于线上部署使用。同时,通过一些知识蒸馏的方法(KnowledgeDistillation),也可以将Enhanced-RCNN作为学生模型(Student Model)去学习BERT-Base,即老师模型,来进一步提升原有Enhanced-RCNN模型的预测准确率。

IntentDial: An Intent Graph based Multi-Turn Dialogue System with Reasoning Path Visualization(基于意图图谱的路径推断可视化多轮对话系统)

在一般智能问答系统中,常见的形式是:用户提出问题,系统识别用户意图并给出回答或者引导解决。其中正确理解识别用户问题的意图十分重要,正常情况下我们可将这一识别过程当作是一个分类任务处理,用深度神经网络对数据进行训练预测。其中在我们构建意图库的时候,我们将收集用户最真实的意图并对应提供解决方案,对于用户描述清晰完备的情况下,我们可在意图库中找到一个对应的意图,而事实上在一些较复杂的问题上,部分用户在表达意图时,能一次性将所有信息表诉完备是较困难的,此时则需要和用户进一步进行多轮QA从而定位用户意图。

本论文中,蚂蚁金服工程师创新性在智能问答中结合图谱结构和强化学习进行建模,(1)通过引入图谱结构,可将问答相关的领域先验知识引入模型训练,加速强化学习模型收敛,同时模型结果为当前上下文获得的图谱路径推断,可解释性高,一方面可用于指导分析模型训练过程中出现的问题,另一方面路径推断中的要素节点可作为实体识别结果用于对话其他模块。(2)通过采取该多轮对话方式,可以有效同时解决对话过程中用户描述清晰和模糊的情况,扩展性高。

A Generic Solver Combining Unsupervised Learning and Representation Learning for Breaking Text-Based Captchas(基于自监督表征学习的验证码识别方法)

随着互联网的高速发展,越来越多的自动化破解程序给网络安全带来不小的挑战。验证码以其简单高效的特征,目前已经成为了互联网安全的基本保障程序。虽然当前已经有许多可供选择的验证码方案,但由于用户偏好和易于设计的特性,基于文本的验证码类型仍然是维护互联网安全和防止恶意攻击的最流行的安全机制之一。而文本验证码的安全特征对验证码安全性方面起着十分重要的作用,因此作为学术研究去自动识别破解文本验证码,可以发现现有验证码所存在的漏洞,有利于网站开发人员设计出更加安全的验证码体系,保障网络安全。

在过去的十多年里,人们已经提出了多种验证码破解方法,其中许多方法需要针对不同的验证码类型使用独特的滤波和分割方法来实现字符识别,这类方法的泛化性较差,且需要过多的人工参与。随着更复杂的安全特性被引入到文本验证码中,这些方法也不再适用。而一些基于深度学习的验证码识别算法在准确性上取得了显著的提高,但这些方法的主要问题是需要大规模的带有标签的训练样本参与训练,而这通常需要耗费大量的人工成本。

大规模带有标签验证码图像难以收集,但是无标签的图像样本却是很容易大量采集得到。在深度学习领域中,无监督学习和表征学习都可以减少对于标签样本的依赖,充分利用无标签数据样本去学习数据表征,提升深度学习方法的性能。我们通过设计了一个结合无监督学习和表征学习的验证码识别方案,在不依赖人工参与和大规模带标签训练样本的前提下,实现文本验证码的自动识别。经过实验测试发现,我们的方法仅仅使用500张带有标签的训练样本就可以破解大多数主流网站的验证码,这也说明了目前文本验证码的部分安全特征很容易破解。通过我们所提出的方法可以发现现有验证码的漏洞,并且分析不同安全特征的有效性,从而开发出更安全可靠的验证码。

Solving Billion-Scale Knapsack Problems(求解亿级变量背包问题)

背包问题 (knapsack problem) 是经典的整数规划问题,求解如何从多个物品中选取一个子集放入背包,在容量限制下最大化子集的效用。互联网场景下很多问题可以看成超大规模的背包问题或者它的变种问题,比如红包营销,用户流量分配等,都有某种总资源的限制,需要在大量的用户粒度的决策中选取一个子集来最大化业务收益。由于背包问题是 NP-hard,求解复杂度高,所以精确算法无法做较大规模的求解。而近似类算法对问题的形式化有具体要求,实际业务的需求一般不会严格符合背包问题的定义,所以需要求解算法有更强的泛化性和通用性。因此,如何在高精度下求解超大规模背包问题及其变种问题仍然是一个挑战。

蚂蚁金服的工作是最早做到对亿级变量的背包问题求解工作之一。我们的问题形式化涵盖了互联网海量数据场景下的泛化背包问题。它的“物品”有两个维度:用户和选项,即“为每位用户选择哪些选项”。它的“背包容量”扩展到了多个维度,即每个用户的每个选项可以消耗多个不同的资源。同时我们还支持对每个用户的选项做任意整数规划的约束。

用于图像检索的等距离等分布三元组损失函数

图像检索由于类内差异大、类间相似性高,非常具有挑战性。深度度量学习在该任务上取得了一定的效果。然而,最为经典的深度度量学习损失函数——三元组损失,存在一定的问题。首先,三元组损失约束了匹配对和不匹配对间的距离差异至少为一个固定间隔值,由于没有直接约束匹配对或者不匹配对的距离,使得局部范围内三元组满足间隔约束时不能保证全局范围内也满足。其次,改进的三元组损失进一步约束所有匹配对距离小于某个固定值以及所有不匹配对的距离大于某个固定值,这种固定值约束没有考虑到图像不同类别的独特性,容易造成特征空间扭曲。因此,为了在全局范围内进一步拉近匹配对的距离和推远不匹配对的距离,在三元组损失的间隔约束基础上,我们针对匹配对和不匹配对分别进行了相对距离约束。

在本篇论文中,蚂蚁金服工程师提出了EET方法,通过等距离约束进一步拉近匹配对的距离,等分布约束进一步推远不匹配对的距离,最终实验结果亦表明该方法可以用在多个检索任务上。

相关文章
|
机器学习/深度学习 数据采集 测试技术
Dowhy,一个强大的Python库,做金融量化领域的可以尝试下!
Dowhy,一个强大的Python库,做金融量化领域的可以尝试下!
467 2
|
弹性计算 安全 Linux
SSH 无法远程登录问题的处理思路
购买云服务器 ECS(后续简称 ECS)Linux 服务器后,首先面临的就是如何登录和使用的问题。而由于服务器在云端,所以日常运维中通常都会基于 SSH 客户端登录服务器进行相关操作。今天,我们就从登录 ECS 的不同方法和使用场景讲起,捋清 SSH 无法远程登录问题的常见原因与排查思路。
|
12月前
|
自然语言处理 测试技术 开发者
阿里云入选 Omdia 2024中国商业基础模型报告领导者象限
国际市场研究机构Omdia近日发布报告《Omdia Universe: Chinese Commercial Foundation Model, 2024》。阿里云入选领导者厂商,并在战略执行和能力两个维度均位居业界第一的位置。
|
Ubuntu Shell 网络安全
实例 : 查看Docker容器内文件系统
dockfile ; docker container ; docker images
4853 0
|
11月前
|
机器学习/深度学习 计算机视觉 Python
图像数据的特征提取与预处理方法,涵盖图像数据的特点、主要的特征提取技术
本文深入探讨了图像数据的特征提取与预处理方法,涵盖图像数据的特点、主要的特征提取技术(如颜色、纹理、形状特征)及预处理步骤(如图像增强、去噪、分割)。同时介绍了Python中常用的OpenCV和Scikit-image库,并提供了代码示例,强调了预处理的重要性及其在提升模型性能中的作用。
1577 5
|
存储 弹性计算 前端开发
阿里云服务领域Agent智能体:从概念到落地的思考、设计与实践
本文讲述了作者团队在阿里云的服务领域Agent是如何设计与实践的,以及到目前为止的一些阶段性成果,作者做出了总结和整理。
|
12月前
|
前端开发
使用LangGraph构建多Agent系统架构!
【10月更文挑战第7天】
1633 0
|
JavaScript IDE 开发工具
你的第一个Vue项目HelloWorld看这一篇就够了
你的第一个Vue项目HelloWorld看这一篇就够了
493 0
|
机器学习/深度学习 消息中间件 人工智能
人工智能平台PAI产品使用合集之vLLM是否支持模型长度扩展
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
Ubuntu 开发工具 git
git 超实用教程【人人必会!】(含大厂的 git 操作规范)
git 超实用教程【人人必会!】(含大厂的 git 操作规范)
387 0