蚂蚁智能化中台:驱动业务高速发展的飞轮

简介: 在金融科技行业,智能中台已经成为提升业务创新能力的重要支撑,正不断以数据资产驱动业务创新,全方位、多角度地重塑产业链。

在金融科技行业,智能中台已经成为提升业务创新能力的重要支撑,正不断以数据资产驱动业务创新,全方位、多角度地重塑产业链。


“你敢付、我敢赔”和大促秒杀的背后,是数字化支付平台利用图数据库和虚拟化引擎的开放计算架构,是计算存储效率的极致优化,是端到端智能化中台的建构。


蚂蚁集团计算存储首席架构师何昌华(萧河)先生,在最近结束的2021阿里云金融数据智能峰会上发表名为《蚂蚁智能化中台建设的实践与展望》的演讲。讲述了支付宝“大促秒杀”和“你敢付、我敢赔”背后的技术底蕴,分享端到端的智能中台如何在提升业务灵活性的同时兼顾金融风控。

11.jpg


以下为他的演讲全文:

01“大促秒杀”背后的高性能账务数据库


蚂蚁脱胎于支付宝,是从支付业务开始的。随着互联网的发展,交易规模急速增加,这对系统背后的计算能力产生了很大的挑战。此前,通过分布式的数据库和服务解决了数据和计算规模化的问题,支撑起了蚂蚁的业务规模。然而近两年,直播带货等互联网商业模式开始兴起,出现了大促秒杀等支付场景。在这些支付场景中,买家都是跟同一个账号进行交易,这就使得系统需要在同一个账号上进行高频操作,产生了热点账户问题。

传统的解决方案是削峰填谷,即指同一个账户接收到交易请求后进行记账,如果是在单机能够处理的能力范围以内就直接记,否则加入缓存队列,等账户空闲时再实现完整的一致性处理。这个方案存在以下问题:

  • 无法精准对账户配置缓存队列
  • 账务缓存有可能超出账户本身余额,出现资金损失等风险

    22.jpg


为了系统性地解决这些问题,蚂蚁进行了突破性创新,设计研发了高性能账务数据库。

  • 账务逻辑下沉:余额检查及转账逻辑下沉,减少应用事务
  • 无锁一致性:单账户处理在单核CPU按照网络顺序执行指令,无锁一致性保证
  • 网络、存储IO优化:减少10倍延迟,针对硬件特性编写,底层代码及库函数使用C及汇编,微秒级数据访问

这一数据库最终实现热点账户处理2万TPS。从业务发展的角度考虑,其实2万这个数值,仍然不是特别保险,所以在这一块蚂蚁有一个更高的目标,我们希望可以达到物理极限

33.png

02

虚拟化引擎保障复杂支付网络


如下图所示,在支付场景里还涉及支付工具和支付渠道的选择,这需要考虑支付渠道本身容量是否足够、是否健康等各类合规要求,是典型的大数据实时决策问题。

举个例子,2020年某省的支付链路由于光纤被挖断,导致支付渠道很多指标都发生了异常,业务需要分析数据定位44.png异常原因,尽快调整支付链路,遇到了如下挑战:

  • 异常分析下钻维度受限制,维度多,无法实时任意维度交互式分析
  • 离线指标实时化需二次开发,无法复用已有离线任务
  • 单引擎性能受限,长时间窗口实时指标无法通过单流作业计算,需手工拆分成流和批作业的组合



为了解决这些问题,蚂蚁内部建立了一整套全网监控的指标体系,通过流批协同、虚拟化和自动优化,建立分布式结构化存储引擎。这一虚拟化引擎实现了任意维度下钻、指标一键实时化和长时间窗口的指标自动完成计算,从而保证了支付链路的安全稳定。

55.png

03

持续策略智能化“你敢付,我敢赔”


支付业务中,除了支付行为本身,另一个重要的课题就是伴随着支付行为的风险控制,蚂蚁在这方面也做了很多工作,针对近年高发的未成年人诈骗场景,采用了智能策略方案。通过分析数据自动产生特征,组合不同的特征和阈值自动产生策略,然后推荐给策略专家进行评估,最后上线。

66.png


分享一个诈骗实例:付款账户年龄大于28,在过去很短时间内有几笔付款码刷新的行为,收款账户存在一定的交易失败记录。这看起来是很正常的,策略专家也很难想到要设置这样的规则,但通过智能化的数据挖掘,发现这是一个被诈骗的账户。执果索因,在未成年人诈骗场景中,小朋友可能在不法分子的影响下,打开父母的付款码截图发送出去,由于操作不熟练产生多次刷新行为,同时付款码具有时效性,不法分子账户就容易发生多次交易失败的情形,在短期累积一定交易失败金额。这些看似不经意的东西,策略专家是较难发现的,系统则可以借助智能化的手段找到并确定合理的阈值。整个智能策略系统具有较好的金融属性:

  • 策略生成过程强可控:机器智能推荐,专家经验精确调节,结果具备强可解释性
  • 智能化策略组合快速响应:分布式算法执行支持策略快速且智能的探索,支持十亿量级以上大数据小时内完成挖掘规则
  • 评估指标多样,支持多目标学习,自定义评估指标

目前在蚂蚁所做的工作里,已经可以做到特征自动发现,策略智能生成并且可解释。未来我们希望从自动特征,智能策略,到模型可解释和归因分析,整体是一套闭环、自动化的系统,端到端地实现智能化特征和策略选择。这样一个大的闭环其实需要的算力无比巨大,整个状态空间是爆炸型的,对于这方面我们仍然在探索。

04

全栈图计算体系深挖数据关联价值


随着业务和技术的的不断发展,智能中台对于数据的挖掘也从线性结构走向图结构。比如支付风控中的反洗钱场景,目前反洗钱主要的挑战在于,不法分子通过“跑分平台”,租借合法账户,使得大量原有正常账户参与到黑灰产交易中。同时,他们通过海量交易、艺术品拍卖等手段来掩盖洗钱行为,采用多重身份、大量账号等方式来避开可疑规则筛查。这就对遏制反洗钱行为的时效性和精准性提出了很高的要求。

最初的做法是,针对单个记录或单个账户进行分析,找到高危特征,设计策略和模型,判断是否是洗钱账户。但是目前,研究单个账户已经解决不了问题,必须在一个更大更全局的范围内研究所有账户的连接情况以及交易资金的流转情况才有可能判断出风险。因此,图计算,图存储,图机器学习成为了解决这一问题的强大武器。蚂蚁在这方面做了非常大的投入。目前,在反洗钱领域,图计算覆盖支付宝全部资金交易,对疑似团伙类犯罪风险识别能力提高94倍以上,风险审理分析效率提升90%。

77.png


蚂蚁在图计算这个领域沉淀了接近5年,现在将图数据库、图计算、图神经网络模型等一系列围绕着图数据展开,对图数据进行存储、分析、演化的智能技术体系的能力整合起来,打造了一个产品GeaGraph。GeaGraph具备着世界领先的图技术能力。

  • 拥有着世界规模领先的图数据库集群:
  • 图数据库性能基准测试世界纪录保持者,领先第二名7.6倍
  • 具备在线(领先)、近线(创新)、离线(领先)三线计算能力
  • 时序图计算是2021金融十大科技趋势之一
  • 基于GeaGraph的图神经网络模型刷新斯坦福Open Graph Benchmark世界记录

    05
    智能中台助力业务“自动驾驶”

整体来看,蚂蚁智能中台在业务和技术的不断发展中,渐渐沉淀出蚂蚁计算存储的大底盘。


未来,我们希望打造一个端到端的智能化中台,既有数据和特征的研发,也有策略和模型的训练,既有具备金融特色的运筹优化求解,又有模型的模拟仿真和验证,还能对生成的模型进行解释和归因。最后获得反馈,不断迭代优化。我们希望把这样一个闭环打通,实现数据的智能实时决策。到那时,就能够实现金融业务的“自动驾驶“,从而助力业务飞速发展。我相信,这也应该是整个金融科技行业演进的大方向。


金融行业一直是科技的领跑者,让科技的力量赋能金融行业发展,让金融业务驱动技术的创新。


谢谢大家!


99.png

(作者介绍)

相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
相关文章
|
数据可视化 数据挖掘 API
python数据可视化显示(附代码)
python数据可视化显示(附代码)
|
关系型数据库 数据挖掘 分布式数据库
数据库+MCP,0编码自主完成数据洞察
本文介绍了一种全新的数据分析方案,结合PolarDB MySQL版与阿里云百炼,搭配MCP工具实现智能数据库分析应用。该方案解决传统数据分析工具高门槛、低效率的问题,通过零SQL操作和一站式部署,助力企业快速挖掘数据价值。方案具备高性能查询、快响应直连加速、高安全保障及易迁移上云等优势,并详细说明了部署资源、应用配置及验证步骤,帮助用户轻松完成实践体验。
|
11月前
|
人工智能 关系型数据库 MySQL
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
本文通过一个利用百炼大模型平台和Dataphin数据服务API构建一个客户360智能应用的案例,介绍如何使用Dataphin数据服务API在百炼平台创建一个自定义插件,用于智能应用的开发,提升企业智能化应用水平。
634 4
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
|
人工智能 弹性计算 Kubernetes
【云故事探索】NO.10:厦门立马耀的数字化转型之路
厦门立马耀网络科技有限公司在数字化转型中,凭借敏锐的市场洞察和技术创新,将云计算深度融合于业务。其品牌“蝉妈妈”为中小企业提供全方位数字营销解决方案,成为行业标杆。面对快速变化的市场需求,公司通过与阿里云合作,构建高可靠性计算平台,提升效率,并利用AI技术赋能客户,推动业务多元化发展,展现了云计算在企业成长中的巨大潜力。
|
人工智能 自然语言处理 安全
AI战略丨大模型时代, 基金投顾 AI 应用探索
随着大模型能力和安全能力逐渐完善,大模型在金融领域的应用也会涉及越来越多、越来越核心的场景。
|
存储 SQL 关系型数据库
OceanBase与MySQL有何区别?
【8月更文挑战第12天】OceanBase与MySQL有何区别?
3331 3
|
人工智能 UED
提升5.69倍,高效RAG上下文压缩方法COCOM
【8月更文挑战第7天】在AI领域,大型语言模型(LLMs)展现出了强大的计算与知识处理能力,但也面临着处理复杂任务时因上下文信息激增而导致生成时间延长的问题。为解决这一挑战,研究人员开发了COCOM上下文压缩方法,该方法通过将冗长的上下文信息压缩成简洁的上下文嵌入,有效提升了RAG系统的解码速度。实验表明,COCOM能在不牺牲答案质量的前提下,将解码时间最多提升5.69倍,极大改善了用户体验。然而,该方法也可能存在信息损失的风险,且在特定任务上的效果可能受限,因此在实际应用中需综合考量压缩率与答案质量的平衡。论文详情参见:https://arxiv.org/abs/2407.09252。
423 3
|
机器学习/深度学习 自然语言处理 机器人
注意力机制详解(二)
注意力机制(Attention Mechanism)对比分析:无Attention模型中,Encoder-Decoder框架处理文本序列时,输入信息被编码为单一的中间语义表示,导致每个目标单词生成时使用相同编码,忽视了输入序列中各单词的不同影响。引入Attention模型后,每个目标单词根据输入序列动态分配注意力权重,更好地捕捉输入相关性,尤其适用于长序列,避免信息丢失。Self-Attention则进一步在序列内部建立联系,用于理解不同部分间的关系,常见于Transformer和BERT等模型中。
|
Java Linux DataX
DataX入门指南:快速部署和安装指南
DataX入门指南:快速部署和安装指南
3727 2
DataX入门指南:快速部署和安装指南
|
机器学习/深度学习 vr&ar Python
数据分享|R语言用logistic逻辑回归和AFRIMA、ARIMA时间序列模型预测世界人口
数据分享|R语言用logistic逻辑回归和AFRIMA、ARIMA时间序列模型预测世界人口