引言
阿里巴巴安全部数据与算法团队一直致力于与黑灰产进行对抗,保障用户在淘宝、天猫、闲鱼等阿里巴巴相关平台上的使用体验和切身利益。面对狡猾的黑灰产,我们也研究出了一系列的算法武器,图神经网络(GNN)是其中重要的防控技术之一。GNN作为近年来新兴的技术,不仅能考虑节点本身的属性,还能同时考虑到网络结构特征,进而刻画黑灰产的关系、团伙以及产业链信息,在风控场景中取得了广泛的应用和效果增益。
将各种GNN模型应用到阿里巴巴风控场景中复杂且巨大的图结构上,是一件十分有挑战的事情,我们面临的图结构往往有着以下两个特点:
• 高度异构:节点和边都丰富多样
• 数据规模巨大:很多图结构都是亿级节点、数十亿甚至上百亿的边
业务场景
为了应对复杂且超大规模的图数据结构,我们和计算平台PAI团队以及搜索推荐事业部合作,共同开发了超大规模分布式图神经网络框架 graph-learn(原AliGraph),并将graph-learn应用在安全防控的各个环节之中,取得了良好的效果,下面重点介绍几个GNN的风控落地场景。
垃圾注册识别
淘宝每天新注册的用户中,正常用户占绝大多数,但也有许多黑灰产用户伪装成正常用户,企图获取一个账号从而进行刷单、垃圾评论等等活动,我们称这些账户为“垃圾账户”。“垃圾账户”如果注册通过,就可能从事各种危害活动,因此在注册时将其识别并删除非常有必要。我们通过手机号,设备信息,ip地址等多种关系构建账户与账户之间的连接关系,基于 graph-learn 构建账户和账户之间的同构图以刻画账户的新表征,垃圾注册图模型目前线上已稳定运行近1年,相比于单纯使用账户的特征,每日额外识别10-15%的垃圾账号,保持着相当高的识别准确率。
淘系假货识别
阿里巴巴对于知识产权的保护一直都在进行大量的努力,也取得了十分显著的成果。但是仍然有极少部分卖家在淘宝上售卖假货商品,这一直是我们深恶痛绝的。为此,除了应用假货商品本身的特征以外,我们仔细甄别了假货商品和售假卖家之间的多种关系,比如售假卖家之间的团伙关系,物流等产业链关系,并且通过这些关系构建商家-商品之间的异构图,基于graph-learn开发的淘宝假货图模型目前已在服饰类、鞋类、首饰等诸多大类中落地,相比于直接使用商品、商家的特征信息,图模型能够额外识别10%以上的假货商品。
闲鱼垃圾评论识别
闲鱼是目前国内最大的二手商品交易平台,买卖家可以在商品下面评论进行沟通和询问,但其中也有黑灰产会在商品下面留下一些涉嫌广告、欺诈、假货甚至违禁的评论,影响了用户的使用体验,也给用户带来了风险。为了识别闲鱼上的垃圾评论,我们结合业务特点,自主设计了基于异构图卷积网络的反垃圾系统-GAS,相对于单节点的深度模型,能够在同样准确率情况下获得16%的覆盖率提升,同时我们将该项目中的方法进行总结,所著文章《Spam Review Detection with Graph Convolutional Networks》发表在信息检索领域顶级会议CIKM2019上,并斩获最佳应用论文奖。
恶意评价识别
恶意评价包括评价要挟,同行攻击和虚假评价等多种类型,在淘宝平台上一直是困扰商家的主要问题之一。和传统图模型相比,异构图神经网络通过聚合不同子图的方式消除主观上对强弱边的判断,能够通过图间融合的方式融合不同强度的边信息。在淘系恶意评价的场景上,基于graph-learn 开发的恶意评价图模型优化了整体数据准备流程,提高训练效率,上线后已稳定运行近半年,日均额外识别7%以上的恶意评价,优化了商家的营商体验。
“职业吃货”行为识别
淘宝平台上还有一部分“职业吃货”存在,他们在淘宝、饿了吗等平台疯狂下单,收货后却立即申请“仅退款”而拒不退货,继而以职业投诉等方式威逼商家妥协,这就是典型的“职业吃货”行为。对这种滥用淘宝会员权利,损害平台正常运营秩序的人,我们通过各种媒介关系基于graph-learn构建“职业吃货”图模型,相对于GBDT的传统模型,“职业吃货”图模型在相同准确率的情况下,额外识别了15%的恶意买家,保障了商家在平台上的权益。
风控领域的应用很广阔,阿里也希望有更多关注图神经网络、自监督学习或其他算法方向的人才能共同探索这些技术在风控场景中的应用。如果你有至少一篇高质量机器学习算法一作论文,在图卷积网络和自监督深度学习有深入研究或非常感兴趣,阿里现在也招聘实习生和正式研究者(三年以上 ML 经验),感兴趣的读者可联系 shiping@alibaba-inc.com。
开源项目地址: https://github.com/alibaba/graph-learn
本文作者:秦州