小蚂蚁说:
AAAI ,英文全称是 Association for the Advance of Artificial Intelligence,该协会是人工智能领域的主要学术组织之一,其主办的年会(AAAI, The National Conference on Artificial Intelligence)也是世界范围的顶级人工智能学术会议之一。
AAAI 成立于 1979 年,该组织在全球有超过 4000 名会员。计算机科学领域的许多著名人物都曾担任过该组织的主席,其中包括 Allen Newell、Edward Feigenbaum、Marvin Minsky 和 John McCarthy。
本文是蚂蚁金服技术团队在代表公司参加了今年2月份在美国新奥尔良召开的人工智能顶级会议AAAI 2018 后写下深度的分享。在这篇文章里你能看到此次会议的各类优秀论文解读和蚂蚁金服在AAAI的论文成果。
一、概述
今年的AAAI本届共收到了3808篇论文投稿,其中录用了938篇,较去年的投稿量增加了47%。
从投稿国家来看,中国的投稿量已经遥遥居世界第一,录用数量略微低于美国。
那么,在AI的所有领域中,哪些研究方向更受到关注呢?
可以看到,machine learning methods由于有不同子领域的论文,所以投稿和录用量均为最高。在各个子领域中,图像的投稿和录用居于首位,相比于去年,更是增加了257%的投稿和285%的录用数量。
大家关注的另一个问题是:投哪一个track论文更容易被接受?上图清晰的说明,由于AAAI近些年都在鼓励投稿computational sustainability, reasoning under uncertainty, cognitivemodeling的文章,其录用率也较高。相反,诸如AI算法应用的Applications, machine learning applications等录用率则相对较低。
本届会议的最佳论文颁发给来自阿尔伯塔大学的:《Memory-Augmented Monte Carlo Tree Search 》链接:
https://webdocs.cs.ualberta.ca/~mmueller/ps/2018/Chenjun-Xiao-M-MCTS-aaai18-final.pdf
最佳学生论文颁发给来自牛津大学的:《Counterfactual Multi-Agent Policy Gradients》链接:
https://arxiv.org/abs/1705.08926
2018 AAAI 经典论文奖(经过10年检验的成就)授予了2000年在美国德克萨斯州奥斯汀举行的第17届AAAI会议最具影响力的论文:《PROMPT:自动化本体合并和本体对齐的算法和工具》(PROMPT: Algorithm and Tool for Automated Ontology Merging andAlignment)。
二、关注论文解读
接下来,我们对各自领域关注的一些论文进行一些介绍,更加详细的论文分类及列表见附件论文:《GraphGAN: Graph Representation Learning with Generative AdversarialNets》
近几年来,对网络特征学习(network representation learning (NRL) / network embedding (NE))的研究逐渐兴起,更多的文章可参考这里的整理:
https://github.com/thunlp/nrlpapers
AAAI 2018上发表的这篇论文引入生成对抗网络(GAN)的框架,结合了GAN和Graphlearning,关于这方面的survey,参考这篇文章:
《Acomprehensive survey of graph embedding: problems, techniques and applications》
这两个热点,利用生成器和判别器的对抗训练进行网络特征学习,尝试提升效果。
GraphGAN尝试学习两个模型:(1)生成模型G(V|Vc)试图去接近一个真实的概率分布:Ptrue(V|Vc);(2)判定模型D(V|Vc),它的目标是判定Vc和V之间是否有边。通过经典的min-maxgame操作,在每一步的迭代中,从Ptrue中sample出来一些跟Vc真实相邻的点,然后从G中生成一些跟Vc相连的另外一些点。将sample出来的点作为正样本,将G中生成的点作为负样本来训练D,在得到D之后,再用D中的信号去反过来训练G。不断重复这个过程,直到生成器G和Ptrue极为接近。文章中为了克服softmax和层次softmax的缺陷,还提出了一种Graph Softmax作为G的实现,在5个公开数据集合上测试,证明了GraphGAN的效果。
论文:《HARP: Hierarchical Representation Learning for Networks》
谷歌于2013年公开了word2vec,在学术界和工业界引起了巨大的关注。该方法通过无监督学习将单词映射到低维度连续的向量上,称之为“词向量”。词向量融入了单词的语义信息,将其作为输入,自然语言处理的诸多领域产生了非常好的效果。在图计算领域,是否也可以将一个图上的节点映射到一个低维的向量空间,且图节点向量可以表示该节点在整个网络中的拓扑特性呢?
2014年SGIKDD的一篇论文最早提出了解决方案,算法叫做deepwalk,在接下来的几年里,NRL (NetworkRepresentation Learning)逐渐成为了一个很火的研究方向,这篇NRL的文章同样来源自deepwalk的作者Bryan Perozzi的实验室。
传统的算法都是“一次性”完成节点向量表示的学习,不同于前人工作,这篇论文的核心思想是“层次的”学习节点向量表示。首先,作者发现两点问题:
1.deepwalk, LINE, node2vec这些算法没能充分利用节点的高阶跳跃信息
2.这些算法均是随机初始化的,并没有找到很好的初始化的值。
基于这两点发现,作者提出了层次学习的方法。首先,将相近的节点进行坍缩,得到了更小的图,然后在这个更小的图上学习节点向量表示,再将该向量表示作为原图的初始值,学习原图上的节点向量表示。如果连续坍缩多次,然后逐步从最坍缩的图上学习节点向量表示,然后作为初值再学习下一层更大的图上的节点向量表示,就构成了一种层次的学习方式。
关于坍缩的方式,文中也列举了两种情况,一种叫做“边坍缩”,另一种叫做“星状坍缩”,分别对应了图上的两种不同的节点连接方式。对于不同的坍缩方式,作者都给出了具体做法。
与作者交谈期间发现,HARP也提供了一种新的思路去解决超大规模的图节点向量表示学习,即当节点很多且很稀疏的时候,可以进行坍缩,然后用坍缩图上的节点向量表示直接作为原图的节点近似向量表示。当然,这种近似方法虽然提供了高效率的计算,但也会带来一定的误差,实际效果也有待考究。
HARP算法的流程如下:
其中,坍缩函数的算法如下:
HARP的思路共在deepwalk,LINE和node2vec三个算法上作了改进,作者分别在DBLP, Blogcatalog 和citeSeer三个数据集上做了实验验证。
在多标签分类实验中,可以看出HARP在不同数据集上有一致性的提升。图中横轴均为训练集占总的标注数据的百分比。此外,带有标注的训练数据越多,所有算法的准确度均越高,同时,在不同百分比的训练数据下,HARP也有一致性的提升。目前论文可以从arxiv上下载:
https://arxiv.org/pdf/1706.07845.pdf
论文: 《Personalized Privacy-Preserving Social Recommendation》
隐私数据泄露是社交推荐中常见的问题,即用户个人的隐私数据被社交网络中的邻居或推荐平台获取,从而导致泄露的问题。为解决这一问题,文章提出了一种社交网络场景下保护用户隐私数据的推荐方法,即PrivSR。
隐私数据泄露问题如图所示,该推荐例子中,总共有4个用户,6个物品。其中u1, u2,u4是正常用户,u3是坏用户。用户u1共评价了4个物品,其中R11和R13是敏感数据,即用户u1不想让其他用户及推荐平台知道的,R12和R14是可以公开的数据。社交推荐场景下的一个假设就是好友之间有相似的偏好,所以此时当用户u1将非敏感数据(R12和R14)发布时,坏用户(u3)以及推荐平台(Recommender)便可以反推出敏感数据。
文章提出的PrivSR推荐框架如图2所示。该方法是一种半去中心化式的推荐方法,也就是说推荐平台只能获得用户的部分未敏感数据,同时用户自己保留自己的敏感数据。
图中右模型含义如下:
左上:用户的隐私及公开数据,两种数据分别都加噪
右上:用户u1能接触到的资源,包括他自己的评分,所有用户的非敏感数据,他的好友集合,所有物品的潜在向量,以及他自己的用户潜在向量。
左下:推荐平台(recommender)能接触到的资源,包括所有用户的非敏感数据,以及所有物品的潜在向量
右下:社交关系,对关系强度加噪,因为社交关系限制了好友具有相似的潜在向量
综合以上部分,可以得到以下的目标函数:
第一行是对敏感数据的误差优化,以及对敏感数据加噪,强度为x;
第二行是对非敏感数据的误差优化,以及对非敏感数据加噪,强度为y,这里非敏感数据加噪强度要小于敏感数据的加噪强度;
第三行是社交关系的正则化项,限制好友之间有相似的偏好,同时对好友关系加噪,强度为q;
第四行是正则化项,防止过拟合。
同时,文章里对加噪方法满足差分隐私(Differential privacy)做了证明,感兴趣的可以查看文章详情。
文章选择了Ciao及Epinions两个公开数据集,使用MAE作为评价指标。对比结果如图3所示,从中可以看出,在数据完全公开的情况下,PrivSR要比已有的社交推荐方法(Soreg)稍差。但随着越来越多的数据变成隐私数据,由于PrivSR可以使用这些数据,因此效果会越来越好。
论文:《Deep Asymmetric Transfer Network for Unbalanced Domain Adaptation》
迁移学习技术近年来广为流行,主要思想是使用辅助域的丰富数据帮助解决目标域因数据稀少造成的性能差的问题。该文章提出的迁移学习方法主要是为了解决迁移学习中,辅助域及目标域标签数据稀少的问题,即半监督学习问题。为此,文章首先提出了一种半监督的深度学习模型,如图所示:
其中,非监督部分使用的是auto-encoder,损失函数为:
有监督部分使用的是soft-max做送别,损失函数为:
结合非监督及监督的损失函数,对于单个目标域或者辅助域而言,整个损失函数为:
使用以上单个域的训练结果,作为以下迁移学习模型的初始化。迁移学习模型如下图所示:
迁移学习模型主要也是优化两方面,即监督和无监督。
首先对于监督部分,文章使用了两部分的约束,第一部分是学习辅助域和目标域的一个线性变换G,即:
第二部分是使用这一变换,把目标的数据变换为辅助域的数据,进而用于优化目标域的分类结果,即
文章声称这样做的目的是可以加强对辅助域丰富数据的使用,同时可以防止将辅助域的无用数据迁移进来。
其次,对于非监督部分,文章使用Maximum Mean Discrepancy (MMD)来约束辅助域和目标域的分布相似,即:
结合有监督和无监督的部分,可以得到整个迁移学习算法的目标函数:
文章使用了Block Coordinate Descent (BCD)分别去优化模型,并在两个公开数据集上做了丰富的实验。
Invited Presentations: Probabilistic Machine Learning andAI
来自剑桥大学信息工程系教授和Uber首席科学家Zoubin Ghahramani,回顾了Deep learning的发展历史和概率AI领域的基础,介绍了当前deep learning的一些局限性:
以及了为什么需要将概率引入到deep learning模型中:
然后介绍Bayesian Deep Learning的基本原理和probabilisticmodeling的方法解决深度学习中的不确定性问题:
他给出了Bayesian Deep Learning的一个overview的研究现状:
同时,他指出了当前probabilistic model在预测过程中的一些主要问题,包括非常耗时以及容易出错,可以通过实现一种probabilistic programming language来解决:
同时,也介绍了Uber当前研发的名为Pyro的deepprobabilistic modeling框架:
最后,一个比较有意思的是,他给出了自己理解的未来深度学习的几大研究趋势,其中automated machine learning是他非常看好的一个方向。
三、蚂蚁金服在AAAI 2018
今年,蚂蚁金服在AAAI 2018上有两篇文章被录用,论文的作者天霁和星至在现场分别进行了分享,收到了在场学者和观众的极大兴趣。
cw2vec: Learning Chinese Word Embeddings with Stroken-grams
这是一篇蚂蚁金服人工智能部的论文,被今年的AAAI高分录用。针对无监督中文词向量生成问题,我们设计了一种新的算法:cw2vec。该算法充分利用了中文的语言学特性,让机器懂得汉字一笔一画之间的奥秘。在公开数据集上准确度超过了谷歌的word2vec,斯坦福的GloVe,清华的CWE等其他业界最优的算法。
作为一项基础研究成果,cw2vec在蚂蚁和阿里的诸多场景上也有落地。在智能客服、文本风控和推荐等实际场景中均发挥了作用。此外,不单单是中文词向量,对于日文、韩文等其他语言我们也进行类似的尝试,相关的发明技术专利已经申请近二十项。
下图为文章作者天霁在介绍cw2vec模型:
论文:《Privacy Preserving Point-of-interest Recommendation UsingDecentralized Matrix Factorization》
现有的兴趣点推荐系统,都属于集中式(centralized)训练的方法,也就是说,传统的矩阵分解技术,首先构建该推荐系统的人(或平台),要获取用户对物品行为(如购买,点击,评分等行为)数据,然后利用这些数据来构建一个矩阵分解推荐系统。这样做有两个弊端:
(1)耗费存储计算资源。一方面,所有用户对物品的行为历史数据,都要集中式的存储在某个服务端,因此浪费存储资源。另一方面,在训练矩阵分解模型时,需要在服务端机器上训练,模型的训练速度受限于服务端机器数量,因此浪费了计算资源;
(2)不能保护用户隐私数据。因为用户对物品的行为历史,都被该服务端获取了,假设该服务端不会主动泄露用户隐私,那也存在会被黑客攻击,从而导致用户隐私泄露的事情发生。
为解决这两个问题,我们提出了一种用户隐私保护的去中心化式的矩阵分解方法,如图1右所示。简单而言,用户的数据存在在自己的设备上,如手机和pad,不向服务端上传,这样解决了集中式训练造成的存储资源浪费。另一方面,模型的训练,也都在用户端完成,用户之间通过交互非原始数据信息来完成模型的协同训练。这样的去中心化式的训练方法可视为分布式算法,每个用户都是一个计算节点,因为可以解决集中式训练造成的计算资源浪费。
下图为作者星至在AAAI会议上的介绍:
四、总结
通过参会,我们获取了更多业界最新的算法和经验,接下来期待我们能把本次会议收获的一些好的想法在阿里和蚂蚁的场景中落地,也期待未来中国能有更多的创新在类似AAAI这样的人工智能顶会上展示。
— END —
蚂蚁金服科技,只为分享干货 您的转发是对我们最大的支持
欢迎在文章下方留言与我们进行交流哦~