智能风控未来已来

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 本文主要会分享三个方面的内容,由小红书反作弊的策略和算法负责人 汪浩然讲讲他和阿里风控的故事、阿里云的风控产品赋能以及阿里的机器学习平台赋能,最后介绍一下智能风控以及智能风控依靠的云计算能力。

小红书反作弊的策略和算法负责人 汪浩然

本文主要会分享三个方面的内容,首先我会讲讲我和阿里风控的故事,接着我会讲一下阿里云的风控产品赋能以及阿里的机器学习平台赋能,最后我会介绍一下智能风控以及智能风控依靠的云计算能力。

幻灯片3.PNG

首先我想介绍一下我和阿里风控的故事,总的来说,我从一个主动的赋能者参与者,逐渐到今天成为了阿里的校友,成为了一个合作者和一个被赋能者。一开始我最早是在蚂蚁大安全参与了蚁盾的这样一个产品,以及 rain score 这样一个东西来赋能到生态圈,我从那个时候开始入门风控,然后知道了有赋能这样一件事情,后来我又参与了集团的供应链风控以及供应链金融的事情,我开始理解到风控它是一个链路上的问题,从前面的营销、交易到供应链、物流,它是一个完整的链路,然后以至于到今天能帮助我更好的从全局角度去把握这样的一件事情。

现在我在小红书成为了阿里的校友,那么我一开始就有一个非常朴素的情怀,就是说阿里的好东西我们该用上,所以现在是被阿里赋能着,所以这也是非常有趣的一个故事。

幻灯片4.PNG

然后我想介绍一下阿里云风控服务的风险识别的环节,就是大家都知道阿里巴巴集团和蚂蚁金服的风控体系,他们这么多年实际上沉淀了很多的能力,不管是对特定风险pattern的识别,还是对一些风险对象的识别,那么这些东西其实输出来了以后,大家可以一同来营造一个真实美好多元的互联网商业和社交的环境。

幻灯片5.PNG

另外阿里云风控服务一个重要的赋能的方向,就是它的决策引擎。大家都知道在风控中是有一个策略的体系,它就是一个类似于决策树一样的东西,在不同的场景下,不同的条件下,你使用什么样的规则和算法来产生一个风险的决策?这个东西它本身是有一定的复杂度的,因为策略的部署运维以及后续的管理等一系列问题是非常复杂的。而阿里巴巴集团,尤其是阿里云,把阿里内部的能力进行输出,对生态也是有非常大的帮助。

幻灯片6.PNG

其次就是阿里云机器学习的赋能,就是业界可能有的人会觉得阿里的工程师,尤其是一线的算法工程师,他的代码能力没有那么强,但是我们怎么去看待这样一种代码能力,其实不管国内还是国外,很多一线的算法工程师,很多时候他写的都是数据处理的代码或者部署代码,或者是一些胶水代码,很多时候只是做标准化算法的搬运工,既然是这个样子,为什么不能很好的通过这种机器学习的平台来插件化、模块化,拖拽式的来完成这样的工作,然后把一线的算法工程师解放出来,能够更专注于业务问题的解决以及建模。尤其是风控面对大量的不确定性的问题,在建模和模型的评估环节都需要大量的时间,好的机器学习平台就能让一线的算法工程师更多的专注在这些地方,而不是很多时候搬运代码或者不断的重复一些代码的拷贝和粘贴。

幻灯片7.PNG

接下来讲一下智能风控的策略体系,风控的策略它一般来说主要包括规则和算法两大部分,最近我也是在内部培训的时候也总结出来,规则简单的来说就是剑未佩妥出门已是江湖,而算法更多的时候是10年磨一剑,今日把示君。

为什么说剑未佩妥,就很多时候,比如说你上一个新的业务,它会出现很多新的情况,我是有很多业务的底线要去遵守,我有不能承担的资损,我又有不能容忍的用户行为,所以这时候需要用规则来做一个业务的兜底,而很多时候风险它又是突发的,我们如何能够快速的止损,这时候必然要通过一些有效的规则来实现,因为这时候等你去做一个算法,那是来不及的。那么从特征上来说,规则很多时候他就是用的一些非常强的特征去直接的做判断和识别,而且规则非常依赖专家的经验,就是人对于业务的理解和对于数据的理解。

算法很多时候是随着你业务的发展,你就会有很多的油水、有很多的羊毛,那么别人自然会想办法去绕过你的那些规则来获得利益。所以这时候算法承担的角色更多地是一个非常深度的对抗。其次算法它是一个慢工细活,因为大家都知道,为什么要用这个算法,不用那个算法,为什么用这一个参数的组合这样调参不用那样,为什么你最后是这么去使用这个算法,那都是有非常大的很细致的工作要去做,这个周期也是比较长,可能有时候一两个月两三个月一个算法才完成从它的设计到最终上线发挥作用。从特征上来说,算法更多的时候,它是一个强弱特征共用的过程,算法其实也就是大家常说的人工智能。

幻灯片8.PNG

另外我想介绍一下智能风控中一些代表性的算法,我在内部给算法的项目起了个名字叫七剑下天山,因为小红书目前我们团队还比较年轻,不像阿里有那样一个层次化的梯队和分工,很多同事他既要每天处理日常的一个风险,像一个分集的剧情,然后他又要去做一个长线的算法,就像一个长线的剧情那样去开展自己的工作。我们觉得七剑下天山这个名字是非常的贴切,就是我们先练好七把剑,然后下山斩妖除魔来进行这样一个风险的对抗。

比较有代表性的就是第一把剑莫问剑图神经网络的学习,因为这几年集GCN也是非常的火,小红书作为一个社区,它有用户和笔记的关系,也有用户和用户之间的关系,那么组成了这样的一个社交网络。那么我们使用GCN去训练的时候,就自然会拿到用户笔记作为点上的一些特征,以及他们的各种交互interaction之间的一些特征来进行学习,那么事实证明确实能学到很好的东西,很有意思的一些结论。

然后还有一个就是图上的社区发现,因为图上的社区发现在风控领域也热了很多年了,小红书作为一个社区,其中有人喜欢美妆,有人喜欢汽车,本身就是一个天然的兴趣的社区。那么其次作为黑产来说,它会有很多的团伙特性的出现,那也可以看作是一种社区。所以我们把这个名字起做游龙剑,因为图上的社区发现背后的数学原理很多都用的是随机游走的思想,然后目前我们也是一个麻省数学系的同学在做这样的一个算法,接下来还有标签传播算法,因为风控有很多很经典的场景就是说我们能很轻易的拿到一些肯定是有把握的黑样本或者白样本,但这时候它的数量是不够的,我们怎么办?标签传播算法在业界也热了几年了,它可以作为一个经典的场景,通过这种相似关系把黑白样本给扩充出来,获得一个更大的黑白样本集合和我们需要的一些信息。

最早我在蚂蚁金服就开始了标签传播算法的工作,做到现在其实也是希望通过这个项目能做些新意出来,在一些新的社区上达到一个旧书常读出新意的一个人生追求。然后另外还有一个迁移学习,就是说很多时候风控也会对特定的文本或者特定的图像去识别某种特定的风险pattern。但是作为一个风控的算法团队,你很难说我去训练一个base的bert,或者base的ImageNet这样的一个模型,我肯定是要进行一些迁移学习来快速识别我想识别的那些风险pattern,所以其实叫日月剑也是蛮贴切的,最终完成一个乾坤大挪移,不同的倒面之间的知识进行迁移,不同的future领域进行迁移,不同的label空间进行迁移这样的一个效果。当然我们还有更多的剑在路上。

幻灯片9.PNG

然后想讲一下智能风控依靠的云计算能力,就是说其实很多的公司一开始肯定追求的是这种业务的成功或者是算法的成功,没有办法像阿里这样沉淀一个非常大的中台、后台。缺少这些东西的时候,你怎么来开始你的工作?比如说你很多新业务刚上来,你本身的风险积累就比较少,你怎么来做?这时候其实就可以考虑引入一些云风控的服务。

其次大家想做人工智能,很多时候会缺乏人工智能硬件管理的平台,以及你怎么去完成模型的训练,这时候云上的资源、云上的平台都是非常好的一种选择,尤其是当我们从一开始的一些建议已经配妥了以后,开始要做一些模型和算法的工作的时候,会发现模型的运维成本是很高的,因为模型不是简单的说我们训练了一个模型文件,然后跑了个预测就好了的,我们要持续的观察模型的表现以及新的模型文件的替换,这样的流量测试还有等等一系列的问题,这时候肯定是需要一个自动化的平台来工作的。

其次还有一个绕不开的问题就是说一线的算法工程师很多时候是缺乏开发能力的,比如说图神经网络这个东西,你让一般的算法工程师用PyTorch或者Tensorflow去实现一个多卡的分布式训练,然后再实现一个高效的预测,基本上是一个很难的任务,至少在我认识人当中很少有人能胜任这样的工作,这时候怎么办?我们只能专业的事情找专业的人,使用一些进一步封装的专业化的计算库,寻求生态圈内的合作伙伴来解决这个问题。

幻灯片10.PNG

最后我想展望一下未来,其实我觉得未来有几个非常重要的关键词,人工智能中的人工,还有君子不器。随着人工智能的发展,智能虽然越来越强了,但是还是有很多种标注的任务,以及说你随着新业务往往是伴随着新的风险,专家知识依然是要为风险去把关的。

其次很多标注的任务它是跟你的生态,比如说小红书的调性,什么是小红书的调性?那是随着业务的理解去打标的,而不是随便就能够打出来的,这时候都非常需要人的专家知识,还有说君子不器,就是论语中说君子不器就是说君子不能只成为某个领域的专才,因为风控要面对的对象是很多的,有图像的、有文本的、有视频的、有关系的、有行为的,就是我们对各个领域的算法都要有了解,都能够应用它去进行风控,而不能陷入那种门派之争,就像倚天屠龙记当中的杨逍说的一个人的武功,有了门派就是落了下乘,其实我们希望有这样一个开放的心态,最终能做到君子不器。

其实技术上也有很多的东西需要攻克,比如说反例攻击,因为随着神经网络的使用,越来越多的神经网络本身就很容易被反例攻击,我们也观察到了很多有意无意被反例攻击的一些案例。其次还有联邦学习,就生态圈中如何能更好的赋能和被赋能,我觉得联邦学习是一个探索的方向,这样的话就不单纯只是一个结果之间的赋能,其次还有大量的技术要突破的,比如说图神经网络,我们真正用多GPU去训练的时候,目前还遇到就是每个GPU的利用率是比较低的,如果这个问题不能够很好的解决的话,花那么多钱你去买GPU,最后利用率很低,财务就会来找你。还有包括我们在使用图数据库等等方面,尤其风控对时间的要求是非常的严的,可能在特定的时间就一定要出结果的,所以不管是training的效果还是一个influence,时间上的提升都是非常重要的,所以这些在未来还是有很多技术的突破,但是我觉得不管技术如何发展,时代如何发展,那么决定战争胜负的还是人的因素。
谢谢大家!

更多大数据客户实战案例:https://developer.aliyun.com/article/772449

首月199元开通DataWorks专业版+MaxCompute按量付费黄金搭档:

https://dw-common-buy.data.aliyun.com/promc

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
9月前
|
机器学习/深度学习 自然语言处理 机器人
智能客服:提高客户服务的创新技术
智能客服作为提高客户服务质量和效率的创新技术,正在不断改变商业和服务的方式。通过自然语言处理、机器学习和知识图谱等技术,智能客服能够为客户提供更好的服务体验,同时也为企业带来了更大的竞争优势。虽然智能客服在应用中还面临一些挑战,如情感分析和数据隐私,但随着技术的发展和完善,它将在未来持续发挥重要作用。
140 1
|
11月前
|
存储 机器学习/深度学习 分布式计算
当金融风控遇上人工智能,众安金融的实时特征平台实践
随着企业数字化转型升级,线上业务呈现多场景、多渠道、多元化的特征。数据要素价值的挖掘可谓分秒必争,业务也对数据的时效性和灵活性提出了更高的要求。在庞大分散、高并发的数据来源背景下,数据的实时处理能力成为企业提升竞争力的一大因素。今天分享的是众安金融实时特征平台实践。
312 0
当金融风控遇上人工智能,众安金融的实时特征平台实践
|
12月前
|
人工智能 供应链 算法
数智洞察 | 数字时代,你需要一个智能决策大脑
编者按: 数据是数字化的基本的生产资料,数据的质量直接决定了数字化的能力、所能达到的深度和广度。数据已成为企业的核心资产,将数据资产进行有效的管理和使用,是数字化转型的重点。阿里研究院副院长安筱鹏就“数字技术驱动的两场革命”进行了主题分享。
178 0
|
机器学习/深度学习 人工智能 运维
客户分享:智能风控 未来已来|学习笔记
快速学习客户分享:智能风控 未来已来。
205 0
客户分享:智能风控 未来已来|学习笔记
|
新零售 供应链 数据可视化
新零售行业优质解决方案分享【智能供应链解决方案】
智能供应链解决方案可以解决销售预测不准确、订单处理效率低、排产准确率低待细化、布局与物流成本高效率低等情况。
747 0
新零售行业优质解决方案分享【智能供应链解决方案】
「镁客·请讲」创略科技杨辰韵:打通线上线下数据,用AI和大数据玩转营销
有的时候,算法本身以及技术并不是难题,最大的问题在于数据收集的维度以及不同数据的打通。
432 0
|
人工智能
国内首笔!蚂蚁金服完成全流程零人工干预 AI 保险理赔
小蚂蚁说: 7月19日,国内保险业首笔无人工干预的“全流程 AI(人工智能)快赔”近期在支付宝内完成。在支付宝里上传医疗凭证后不到2小时,理赔款就自动到账了,体验这全国第一单的码商是来自广州的张女士。
2795 0
|
新零售 机器学习/深度学习 算法
阿里巴巴iDST杨森:智能决策在电商平台的应用
在2018年1月6日的云栖社区数据智能技术论坛上,来自阿里巴巴的杨森做了智能决策的主题分享。目前智能决策在人力调度、货物分配、资源优化等场景上面扮演者重要的角色,杨森从获取数据,预测用户需求,做出决策这三个阶段,对智能决策的框架以及优化做了详细介绍。
5705 0
|
存储 分布式计算 MaxCompute
阿里云携手华大基因打造精准医疗应用云平台
华大基因股份公司总监金鑫介绍了华大基因,并浅谈了与阿里云的情缘,包括Maxcompute等方面应用案例。一起来看下吧。
2035 0

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    30
  • 2
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    24
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    31
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    26
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    25
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    26
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    33
  • 8
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    27
  • 9
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    30
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    24