AAAI 2020 阿里精选论文抢先看-阿里云开发者社区

开发者社区> 阿里论文> 正文

AAAI 2020 阿里精选论文抢先看

简介: 人工智能领域顶会AAAI 2020刚刚在美国纽约落下帷幕。本届大会,阿里巴巴经济体共60余篇论文被大会收录,同学们以视频和海报的形式远程参与,与全世界同行分享了最新的技术进展。这里小编为你精心挑选了阿里巴巴入选的oral paper Spotlight paper 以及 最佳人工智创新应用奖获奖论文,足不出户,你也能了解阿里巴巴AI技术研究的一线干货。

Deep Match to Rank Model for Personalized Click-Through Rate Prediction

推荐系统中CTR预估的重要性不言而喻,其中个性化是提升CTR模型效果的关键。本文介绍一种全新的排序模型DMR,主要的思想是融合Match中的协同过滤思想,在Rank模型中表征U2I的相关性,从而提升模型的个性化能力,并取得不俗的效果。
搜索场景中用户通过输入搜索词显式地表达用户的意图,而推荐场景中没有这种显式获取用户意图的方式。用户的意图往往隐藏在用户行为序列中,可以说用户行为序列就是推荐中的query。因此,对用户行为序列进行建模来抽取其中的用户意图就非常重要。DIN以及DIEN等后续工作关注用户兴趣的表征以提升模型效果,而我们的工作在此基础上又往前走了一步,关注U2I相关性的表征。U2I相关性可以直接衡量用户对目标商品的偏好强度。可以理解成从用户特征(用户兴趣表征)到U2I交叉特征(U2I相关性表征)的升级。目前DMR模型已经在1688为您推荐上上线,对比模型是DIN(我们上一个版本的CTR模型),CTR相对提升5.5%,DPV相对提升12.8%,目前已经全量。

Visual Agreement Regularized Training for Multi-Modal Machine Translation

多模态机器翻译是指在存在配对图像的情况下将源语言句子翻译成另一种语言。先前的工作表明,视觉信息只在几种非常特殊的情况下(例如翻译歧义词)是有帮助的,在大多数情况下并不能改善翻译的性能。为了更好地利用视觉信息,这篇文章提出了基于视觉一致的正则化训练。本文的技术创新点在于提出的方法同时训练源语言到目标语言和目标语言到源语言的翻译模型,并鼓励它们在生成语义上等效的视觉单词(例如英语中的”ball”和法语中的“ballon”)时,共享相同的视觉关注信息。此外,创新点还包括引入了有效的多样化共同注意力模型来捕捉视觉和文本特征之间的相互作用。结果表明,在公开数据集Multi30k上,我们的方法可以大大优于基准模型。进一步的分析表明,我们提出的正则化方法可以有效地改善图像上的注意力一致性,从而更好地利用视觉信息来改进机器翻译性能。业务落地的场景是电商的商品详情的机器翻译,商品详情中往往除了文字介绍还有商品的图片,目前的机器翻译都是基于文字的,而图片可以用本文提出的方法来改进翻译的结果,从而提高商品的转发率。

Multi-Question Learning for Visual Question Answering

视觉问答(VQA)对计算机视觉和自然语言处理社区提出了巨大的挑战。现有的大多数方法在训练中单独考虑视频-问题对。然而,我们观察到,在VQA任务中,目标视频通常有多个问题(顺序生成或不顺序生成),这些问题本身具有丰富的语义内在联系。为了探索这些关系,我们为VQA问题提出了一个新的范式,称为多问题学习(MQL)。受多任务学习的启发,MQL从多个问题中联合学习,并给出目标视频序列的相应答案。视频-问题对的学习表征,能普遍地被转移应用到新的问题上。我们进一步提出了一个有效的VQA框架,并为MQL设计了一个训练方法,其中专门设计的注意网络模型,刻画了输入视频和相应的问题之间的关系,使多个视频-问题对能够共同训练。该方法,在实际的淘宝业务中,正逐步运用于直播业务中的直播结构化理解上,具体来说,对应于直播间内,多个用户同时提出若干问题,模型进行内容分析,从而辅助相关业务的开展和辅助主播的相关应用。

Accelerating Primal Solution Findings for Mixed Integer Programs Based on Solution Prediction

混合整数线性规划(MIP)是求解组合优化问题最为常见的建模与优化手段。在阿里巴巴的很多运筹优化相关应用中(例如车辆排线、人员排班、库存管理、服务器分配、城市计算等),会采用通用MIP求解器周期性地求解同质的大规模MIP问题,其单次求解时长或长达数小时。这类反复求解的MIP问题在模型结构上有很大的相似性,如果能从历史求解过程学习出问题的结构特点,则有望大幅提速问题的求解。本文中我们提出采用三部图对MIP问题进行表征,设计Attention GCN直接预测0-1整数变量在最优解中的取值,利用预测解生成local branching形式的约束加入到原模型中,从而加速MIP可行解的搜索。我们基于性能最佳的开源MIP求解器SCIP进行计算实验, 在8类经典的问题上给SCIP可行解搜索带来平均意义下10倍以上的加速效果。以论文中算法方案为基础,开发ORP优化平台,该优化平台实现对任意输入MIP进行最优解预测特征标签采集与训练。该平台已上线并服务于申通快递单边车优化项目中MIP问题的优化求解。针对菜鸟网络规划选址问题,离线训练最优解预测模型,将模型应用于线上MIP求解加速,将求解时长由小时级降低到分钟级。

Joint Commonsense and Relation Reasoning for Image and Video Captioning

本文提出了一种联合常识和关系推理的图像视频文本描述生成方法。该方法通过迭代学习算法实现,交替执行以下两种推理方式:(1) 常识推理,将视觉区域根据常识推理,嵌入到语义空间中从而构成语义图;(2) 关系推理,将语义图通过图神经网络编码,生成图像视频文字描述。Image caption,作为视觉理解的一个研究方向,本质上研究的是视觉到语言(vision-to-language)的问题,模型需要在理解图像或者视频内容的基础上给出描述视觉内容的自然语言语句。这个任务在少儿的看图说话、视频网站的素材搜索以及短视频服务中的风格化标题等业务场景中有着重要的应用前景。

Masking Orchestration: Multi-task Pretraining for Multi-role Dialogue Representation Learning

多角色对话理解包括各种各样的任务,例如问题回答,行为分类,对话摘要等。虽然对话语料库非常丰富,但是用于特定学习任务的标注数据非常稀缺且昂贵。在这项工作中,我们通过设计多个预训练任务对于对话上下文表征进行无监督学习,其中根据多角色对话的自然属性给出了训练目标。同时,为了能够学习更准确的表征,本文在预培训过程首次实现外部知识集成。通过三个不同的对话数据集以及多个下游对话挖掘任务,对预训练效果进行综合评估。结果表明,所提出的预训练机制可对所有下游任务(文本分类及生成)做出显著贡献,并在不同的编码器上都有明显提升。
该技术被成功运用到达摩院NLP应用算法团队主导的智能司法项目中,其中为智能庭审辅助提供庭审对话的基础解析能力。基于该技术,在拥有少量标注数据的前提下,使得一系列下游任务——例如,基于庭审对话的争议焦点生成,庭审笔录摘要生成、基于庭审笔录的证据链生成等, 仍具有较好的表现。目前该技术以及下游任务所衍生的产品已上线使用,第一批试点法院有:浙江省高级人民法院、杭州市上城人民法院、杭州市下城人民法院。

Knowing What, How and Why: A Near Complete Solution for Aspect-based Sentiment Analysis

本工作中第一次定义了Aspect Sentiment Triplet Extraction(ASTE)任务。这个Triplet Extraction(三元组抽取)任务旨在抽取评论出现的所有出现的aspect,对应的sentiment以及对应的opinionterm,在这之上完成三者的匹配工作,形成(aspect—sentiment—opinionterm)的三元组。我们的设计主要采用了二阶段模型。第一阶段模型(stage one)主要分为两个部分:1.标注所有主体词以及主体词的情感极性;2.标注所有可能描述主体词的情感词。第二阶段模型(stage two)主要对第一阶段模型左侧输出的主体词、情感极性和右侧输出的情感词进行配对。首先我们枚举可能出现的配对,加之文本信息以及主体词和情感词之间的距离信息通过分类器来确定哪些是有效的三元组合。

MTSS: Learn from Multiple Domain Teachers and Become a Multi-domain Dialogue Expert

本文针对多领域对话系统的特点,提出Multiple-Teacher Single-Student (MTSS) 模型,每一个 Teacher 模型对应一个特定领域的对话模型,这些单领域的对话 Teacher 模型 将各自的领域知识和对话策略通过知识蒸馏的方式辅助 Student 模型的优化。对于MTSS的模型蒸馏过程, 我们提出从 text-level 和 policy-level 两个 level 进行知识蒸馏,分别考虑了文本信息和策略信息。 多领域对话在智能服务的场景中占据着越来越重要的地位,例如:对于节假日出游而言: {机票到达时间-酒店位置-旅游景点} 这些对话领域往往互相牵涉, 本论文提出的方法为从知识蒸馏的角度为多领域对话系统提供了一种解决方案。此外,本文也解决多领域对话系统状态空间急剧上升的问题,上线模型的参数数量大大降低。

Multi-View Partial Multi-label Learning with Graph-based Disambiguation

在多视图多标记学习中,每一个训练样本在特征空间由多个特征向量进行刻画,同时在标记空间有多个语义表达。然而,实际问题中,经常存在的标注噪声往往会影响训练样本的质量。在文本中,我们将介绍一种新的学习框架:多视图复杂多标记学习(MVPML),在框架下,我们认为样本的标记仅是部分有效的候选标记。为解决此问题,我们提出基于图的两段式消歧方法(GRADIS)。该方法通过“候选标记消歧”(Candidate Labels Disambiguation)与“基于消歧的模型生成”(Disambiguation-Guided Model Induction)两个步骤对MVPML问题进行求解。大量的实验验证GRADIS在解决MVPML问题上的有效性。

Boundary Enhanced Neural Span Classification for Nested Named Entity Recognition

命名实体识别是自然语言处理中的重要任务,嵌套命名实体识别任务旨在识别存在嵌套关系的命名实体。我们提出使用基于片段表示的模型,并提出一个多任务学习框架,通过预测每个字是否是实体的边界来增加模型对片段边界信息的建模能力。实验表明,我们的模型在多个数据集上超过了基线方法,取得了当前领先的结果。同时,由于我们的模型可以通过边界预测部分生成候选答案,在预测时可以达到较快的处理效率。业务结合:在多个业务场景中,如金融、公安、政务、医疗场景下,都存在实体嵌套的情况,通过提升嵌套命名实体识别的结果,可以有效地抽取实体,并服务下游应用。

Deterministic Value-Policy Gradients

不使用模型的强化学习算法比如DDPG虽然在一些问题上获得了成功,但是由于需要样本数量过大,采样效率过低,在真实的场景应用能力有限。因而我们考虑使用模型的方式,对环境和奖励函数进行建模以及学习,从而提高样本利用效率。而传统的基于模型生成虚拟样本的方法,虽然能够带来采样效率提升,但是和真实环境存在误差,容易陷入局部最优。因而我们直接利用模型优化确定性策略,首先证明了该场景下的长期奖励函数梯度存在性。然后,结合基于模型的确定性值梯度估计器和无模型的确定性策略梯度估计器,我们提出了确定性的价值策略梯度算法(DVPG)。 我们在几个标准的强化学习算法评估环境上,将DVPG与其他分支的强化学习算法进行了比较。结果表明,DVPG在采样效率和最终效果上明显优于SVG(随机值函数梯度),DDPG,TRPO(无模型的随机策略算法)和其他基于模型的强化学习算法。 业务结合情况:目前算法技术已用于lazada搜索场景的重排序算法中。

Cross-lingual Pre-training Based Transfer for Zero-shot Neural Machine Translation

不同语言对之间的迁移学习在低资源场景下对神经机器翻译(NMT)具有一定效果。然而,由于源端的迁移对象(父模型)和被迁移对象(子模型)之间的语义空间不匹配问题,目前的迁移方法在零标注等极端场景下并不有效。为了解决该问题,我们提出一种全新的基于跨语言预训练的迁移方法。我们的关键思想是让所有源语言共享相同的特征空间,从而实现零标注翻译的平稳过渡。我们引入了一种仅基于单语和两种基于双语的跨语言预训练方法,以获得适用于不同语言的通用编码器。进一步地,我们利用该通用编码器在大规模平行数据来训练父模型,然后将该父模型直接应用在零标注的翻译任务上。在两个公共数据集上的实验表明,我们的方法明显优于基于桥接的强基线系统和各种多语言NMT方法。

Joint Learning of Answer Selection and Answer Summary Generation in Community Question Answering

社区问答(Community question answering)最近在学术界和行业中都越来越受到重视,它在构建自动问答系统(譬如阿里小蜜,天猫精灵等产品)扮演着重要的角色。但是,众包答案的冗长限制了答案选择的性能。为了解决这一问题,我们通过设计一个新颖的联合学习模型来同时解决CQA中的答案选择和答案摘要生成的任务。具体来说,我们设计了一个问题驱动的指针生成器网络,该网络利用问题-答案对之间的相关信息来帮助生成答案摘要。同时,当对问题-答案对的相关度进行排序时,我们利用答案摘要来减少原始冗长答案中的噪音。此外,我们构建了一个新的大型CQA语料库WikiHowQA,其中包含用于答案选择的长答案以及用于答案摘要的参考摘要。实验结果表明,联合学习方法可以有效地解决CQA中的答案冗余问题,并在答案选择和文本摘要任务上都达到了最新的结果。此外,该模型对缺乏参考答案摘要的资源匮乏的CQA任务具有很大的转移能力和适用性。

Tutorial:Representation Learning for Causal Inference

因果推理在市场营销、推荐系统和在线广告等许多领域中都有大量实际应用。作为因果推理中的一个基本问题,效果估计(Treatment Effect Estimation)已在统计学中进行了数十年的广泛研究。但是,传统的效果估计方法可能无法很好地处理大规模和高维异构数据。近年来,新兴的研究方向结合了传统效果估计方法(例如,匹配估计器)和高级表示学习方法(例如,深度神经网络)的优势,在人工智能领域引起了越来越多的关注。在本tutorial中,我们将介绍传统的和最新的表示学习算法用于估计效果,也将讨论因果推论,反事实和匹配估计量。我们还将展示这些方法在不同应用领域中的的应用。

版权声明:本文中所有内容均属于阿里云开发者社区所有,任何媒体、网站或个人未经阿里云开发者社区协议授权不得转载、链接、转贴或以其他方式复制发布/发表。申请授权请邮件developerteam@list.alibaba-inc.com,已获得阿里云开发者社区协议授权的媒体、网站,在转载使用时必须注明"稿件来源:阿里云开发者社区,原文作者姓名",违者本社区将依法追究责任。 如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:developer2020@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

官方博客
官网链接