蚂蚁金服有哪些金融特色的机器学习技术?

简介: 在9月27日于杭州云栖小镇召开的云栖大会“金融智能”专场上,人工智能大咖宋乐教授分享了金融特色机器学习在蚂蚁金服的发展与应用。

在9月27日于杭州云栖小镇召开的云栖大会“金融智能”专场上,人工智能大咖宋乐教授分享了金融特色机器学习在蚂蚁金服的发展与应用。宋乐教授是蚂蚁金服人工智能部研究员,同时也是美国乔治亚理工大学终身副教授和机器学习中心副主任。他还是国际机器学习协会董事以及多个国际顶级会议的领域主席。

机器学习在蚂蚁金服各个场景,已经像水和油一样渗透,驱动着各种各样业务的发展。会议现场,宋乐教授详细介绍了金融特色的机器学习,重点阐述了三方面的技术:面向海量图数据的深度学习系统、自动机器学习系统、多智体对抗强化学习系统。

以下为演讲的文字实录:

面向海量图数据的深度学习系统

金融场景和互联网其它场景不一样的地方是,其数据是一个巨大的金融网络。在这个网络中资金在不同的个体之间流动。资金流动过程中涉及到各种各样类型的节点,有用户、商家、公司等角色节点,也有账号等虚拟节点,还有WIFI设施、终端等设备节点,以及地点等物理节点。同时,这些节点之间的关系和信息交互的类型也可以不同,从而形成巨大的图。如何对这个图进行机器学习建模,发现其中的有效信息,是非常复杂的过程。

1.png

懂机器学习的同学知道,机器学习要对图数据建模,首先需要把数据进行向量表征,例如类似逻辑回归、决策树等模型都需要先对数据进行向量表征。但图数据的输入并不是向量表征,它是异构且不规则的,每个节点的邻居个数不一样,连接的关系也不一样,这需要一个平台实现图数据到向量表征的转换过程,然后再基于向量表征实现各种各样的机器学习模型。下图展示了一种通用的图向量表征框架。

2.png

图数据进行表征学习之后,就可以做各种各样的应用,例如推荐和决策应用,也可以做一些生成模型。现在有一个在学界比较火的深度学习模型叫做卷积神经网络,其学习过程就是对每个节点和边用神经网络参数化传播的方式来实现深度神经网络的建模。

蚂蚁金服的图数据非常复杂庞大,可以涉及到上百亿的节点,上千亿的边。怎样把大体量的数据用起来,进行机器学习建模,需要很好的系统架构和平台建设支撑。其中包括,怎样存储这些图数据,从而能够支持快速查询,快速推理;以及在逻辑层怎样组织这些数据,是社交关系网络、资金转移网络还是媒介网络。有了这些数据的逻辑组织和图数据的存储以后,还要做通用的算子,包括对图进行采样、随机游走和消息传播。然后,基于这些算子的构件,我们就可以实现各种各样的图深度学习模型,其中既包括基于非监督学习的表征学习模型,也有基于监督学习的表征学习模型。进行表征学习以后,就可以通过机器学习对各种节点、边的类型进行预测,或者时序行为的预测,以及多重目标的预测。基于这些预测模型,我们可以通过离线学习打分或在线学习打分的方式来支持各种上层金融业务。

3.jpg

针对蚂蚁业务海量的数据,除了前面讲的平台的架构设计的思考,还有一些技术上的难点需要解决。我们可能面临百亿级节点、千亿级边,需要考虑怎么样在图上快速的查询节点,并把节点周围的子图抽取出来,这里会用到我们的图存储系统GraphFlat和PHStore。有了这个以后,需要设计机器学习的算法,譬如随机采样的算法,然后把图数据变成一个稀疏的或者是稠密的矩阵运算,在GPU和CPU上进行分布式计算。

4.jpg

除此之外,为了支持各种各样的金融场景应用,还需要支持对不同结构的网络建模。通常金融场景涉及到的网络可能是没有属性的同构网络;也可能是在风控场景经常涉及的异构网络,例如用户和商家之间的资金转移关系;也有可能是带有属性的网络。我们需要用不同的算法模型来处理不同结构类型的网络关系,同时无论哪种类型网络,都可以用一套平台进行建模。目前,我们已经建设了面向多类型图数据的算法库。包括:

  • 面向无属性网络的xGrep,可以针对十亿级节点,千亿级边,数千亿样本进行训练,并研发了分布式随机游走框架和分布式word2vec训练框架;
  • 面向属性网络的GeniePath,这是自适应深度/广度的图神经网络,性能业内领先;
  • 面向异质网络的HeGNN& IGNN,其层次注意力机制提供金融级可解释性,可以自动学习异质信息丰富的语义;
  • 面向知识图谱的KGNN,可对知识图谱进行表达学习,包括图神经网络+图谱模型。

5.jpg

在金融场景很多时候需要具备可解释性,因而需要我们对训练出来的深度模型进行解释,找出具体是网络上的哪一条边或者哪一个节点影响了整个风控系统的决策。为此,我们定义了各种各样的模型,包括GeniePath可以在深度学习网络中自动搜寻节点的邻居,看哪个邻居对当前的信息节点的风控有影响;或者是基于HeGNN、IGNN考虑不同网络层次的影响,甚至是比较粗糙的高层次的网络影响,以及网络的不同维度的影响。

综上所述,一个可用性高的深度图学习平台需要对架构做逻辑的划分,同时中间的每个划分模块都会有很多技术点,包括系统工程的技术、高性能计算的技术,以及模型算法方面的技术。

6.png

上图是两个具体的落地实例。首先,我们把图深度学习应用到营销场景,通过用户和商家的历史购买行为来预测用户对红包金额的敏感程度,从而对商家红包实现个性化定价,帮助商家更好地分配红包金额,提升营销资金利用效率,这个方法把营销的成本降低了8%。我们还把深度图学习和知识图谱结合起来应用在企业信贷,提高了授信额度,新增授信额度数百亿。此外,深度图学习平台还在支付、贷款、保险,财富管理等其他场景中均有各种各样的应用。

在互联网金融中,图神经网络是非常有用的新技术,也是蚂蚁金服大力发展的技术方向之一。

自动机器学习系统

除此之外,蚂蚁金服内部有各种各样的机器学习算法应用场景,每天都有成千上万的模型在训练中,但是算法人员投入在模型训练上的时间和精力是有限的,由于产品纷繁复杂,算法人员既要选择深度学习的网络结构又要选择算法的其他超参,这个过程可能还要加入业务知识;随着数据体量的增加,还需要在比较短的时间调好模型,对模型训练的时间要求也越来越高,而传统的单纯依靠人工调参很难满足我们对于模型更新迭代的效率要求。

为了解决这个问题,我们建立了自动化建模工具AutoML计算平台,能够支持让平台和算法人员一起协作,从而加速机器学习模型的建模和寻优过程。为此,我们在底层基础设施之上实现了很多的算法来实现特征自动化、超参搜索、网络结构搜索以及元学习,从而降低新模型开发的成本。

7.jpg

介绍一个具体的落地案例,叫做autonet,这是针对公司推荐场景大量使用的深度神经网络算法,基本思想是我们通过将一些以前成功的小的深度神经网络子模块自动化拼装起来,组合构成一个新的网络结构并寻找更高效的模型:一方面将DNN的网络结构自动化的构建起来,另外一方面也对最终的建模效果进行提升。产出的模型在相同资源下,和对比的人工设计的模型基本耗时相当,同时在用户拉新的场景取得了很好的效果,动销率提升了14%。

8.png

此外,AotuML还有各种各样的落地场景,后面都应用了自动机器学习平台的网络结构搜索、超参搜索、元学习,以及一些端到端的解决方案能力。各种业务场景的机器学习模型,都可以通过这个平台进行优化,提升效率。甚至跨BU的一些业务场景也基于迁移学习来加速机器学习建模的过程。

多智体对抗强化学习系统

上面两点介绍的是我们的横向技术如何从底层支持各种场景的机器学习模型。接下来介绍的是多智能体强化学习系统在蚂蚁的应用和落地。在实际金融场景中,我们涉及到的节点不是静态的,例如人和商家的节点在交互过程有博弈、合作、对抗,因此我们要把对抗学习跟多智能体的强化学习结合起来应用在这些场景。例如反欺诈场景和金融支付的场景,都可以用多智体强化学习的方式来建模。

但是,很多传统的强化学习的方法都是先假设一个模拟器,然后与之不断进行交互来优化强化学习的策略,例如下围棋。但在金融场景,多智能体强化学习涉及到的模拟器并不是一个静态的,可能是一个人或者是一个机构,所以不存在一个明确好用的模拟器,我们也不知道多智体在行为中,其奖励函数或者是损失函数是什么。因此,使用传统强化学习硬套金融场景是行不通的,首先要根据现有的金融数据或者是用户行为数据学习到一个simulator及其奖励函数,这样才能在此基础上进行强化学习。

9.png

为此,我们建立了一个多智能体的强化学习平台,中间用imitation learning的方法来学习用户的行为特征,以及他的奖励函数,在此基础上做各种各样的机器学习。

这是一个具体的多智体的强化学习在推荐系统上的应用。很多情况下,用户登录到一个系统里面,系统会对这个用户进行长期的检查、分析和推荐。好的推荐系统的建模方式不是把用户每次来的行为作为独立的预测问题,而是把它看成强化学习的问题,这样的话,我们可以针对用户长期的奖励、喜好进行优化,而不是短期的推荐,从而让用户长期对推荐的内容感兴趣,产生价值。

10.png

这是我们在人工智能顶会ICML(2019)上的论文,我们把强化学习这套理论引入到对抗学习里面,用这个方法来学习用户的点击行为,以及点击行为对应的奖励函数,有了用户的行为模型和奖励模型之后,就可以进行大规模的强化学习。

11.png

强化学习在蚂蚁金服还有各种各样的应用,我们还在不断探索和开辟,也欢迎学术界和业界进行更多的交流,共同创新和推动发展。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 运维
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)(二)
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)
60 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)(一)
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)
80 1
|
5天前
|
机器学习/深度学习 算法
构建高效机器学习模型的五大关键技术
【5月更文挑战第3天】 在数据驱动的时代,机器学习已经成为挖掘信息、预测未来和优化决策的关键工具。本文将深入探讨构建高效机器学习模型的五大关键技术:特征工程、模型选择、超参数调优、集成学习和模型评估。这些技术不仅能够提高模型的性能,还能确保模型的泛化能力和可解释性。
|
5天前
|
机器学习/深度学习 运维 自然语言处理
探索机器学习在金融欺诈检测中的应用
【5月更文挑战第3天】 随着金融科技的迅猛发展,机器学习作为其核心推动力之一,正逐渐改变着我们对金融服务安全与效率的理解。本文将深入探讨机器学习技术在金融欺诈检测领域内的应用现状与前景。通过分析多种算法和实际案例,我们揭示了如何利用机器学习提高识别欺诈行为的准确率,降低金融机构的风险损失。同时,文章还将讨论在此过程中遇到的挑战及未来的发展趋势,为读者提供一个全面而深入的视角。
|
8天前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习在金融欺诈检测中的应用
【4月更文挑战第30天】 随着金融科技的迅猛发展,机器学习技术在金融行业中的应用变得日益广泛。特别是在金融欺诈检测领域,机器学习以其强大的数据处理能力和智能识别功能,正逐渐成为防范和打击金融欺诈的重要工具。本文将深入探讨机器学习在金融欺诈检测中的关键作用,分析其优势及面临的挑战,并提出未来发展趋势。
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在图像识别中的应用与挑战探索机器学习中的自然语言处理技术
【4月更文挑战第30天】 随着人工智能技术的飞速发展,深度学习已经成为计算机视觉领域的核心动力。本文将探讨深度学习在图像识别任务中的关键技术、应用实例以及面临的主要挑战。我们将重点讨论卷积神经网络(CNN)的架构优化、数据增强技术以及迁移学习的策略,并通过具体案例分析其在医疗影像、自动驾驶和面部识别等领域的应用成效。同时,我们也将指出当前模型泛化能力不足、对抗性攻击以及算力资源需求等挑战,并提出潜在的解决方向。 【4月更文挑战第30天】 在人工智能领域,自然语言处理(NLP)是赋予机器理解和响应人类语言能力的关键技术。本文将深入探讨NLP的发展历程、核心技术及其在不同领域的应用案例。我们将从
|
8天前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】金融数据分析中的机器学习应用
【4月更文挑战第30天】本文探讨了机器学习在金融数据分析中的应用,如股价预测、信用评分、欺诈检测、算法交易和风险管理,并以Python为例展示了如何进行股价预测。通过使用机器学习模型,金融机构能更准确地评估风险、识别欺诈行为并优化交易策略。Python结合scikit-learn库简化了数据分析过程,助力金融从业者提高决策效率。随着技术发展,机器学习在金融领域的影响力将持续增强。
|
8天前
|
机器学习/深度学习 算法 前端开发
【Python机器学习专栏】机器学习中的模型融合技术
【4月更文挑战第30天】模型融合,即集成学习,通过结合多个模型提升预测性能。常见方法包括:Bagging(如Random Forest)、Boosting(如AdaBoost、XGBoost)和Stacking。Python中可使用`scikit-learn`实现,例如BaggingClassifier示例。模型融合是机器学习中的强大工具,能提高整体性能并适应复杂问题。
|
8天前
|
机器学习/深度学习 算法 Python
【Python机器学习专栏】机器学习中的超参数调优技术
【4月更文挑战第30天】本文探讨了机器学习中超参数调优的重要性,介绍了网格搜索、随机搜索、贝叶斯优化和AutoML等调优方法,并提供了Python中使用`scikit-learn`进行网格搜索的示例。超参数的选择直接影响模型学习和泛化能力,而调优技术能帮助找到最佳组合,提升模型性能。随着AutoML的发展,自动化调参将成为更高效的选择。
|
8天前
|
机器学习/深度学习 算法 算法框架/工具
【Python机器学习专栏】深度学习中的正则化与优化技术
【4月更文挑战第30天】本文探讨了深度学习中的正则化和优化技术,以提升模型的泛化能力和训练效率。正则化包括L1和L2正则化以及Dropout,防止过拟合。优化技术涵盖梯度下降法、动量法和Adam优化器,加速模型收敛。Python示例展示了如何在Keras中应用这些技术,如L2正则化、Dropout及Adam优化器。

热门文章

最新文章