本讲座选自百融金服CEO张韶峰于2015年4月8日在青岛大数据高峰论坛金融大数据分论坛上所做的题为《线上线下融合的大数据金融建模》的演讲。
今天汇报的主要内容包括三个部分,第一个是传统风险与营销建模思路,第二个是目前我们在尝试线上线下融合的大数据风险与营销建模思路,以及一些实践效果。
一、传统风险与营销建模思路
先讲第一个,说到金融风险建模就离不开费埃哲,这个模型已经用了60年了,他们采用的变量就是基于这个人过去有什么时候借的钱、借了多少钱、还款有没有逾期、花钱的比例。最重要的变量是过去借的钱有没有还,什么时候还的,来预测下一次借钱什么时候还。但是这里有一个问题,如果这个人之前没有跟金融机构打过交道,就比较难以预测你下次借钱还不还,这个总是有一个冷启动的问题。在美国这不是一个大问题,这个方法的核心就是我要预测一个模型,这个模型就是Y=FX,Y是还款违约概率,F是函数,X是收入变量,X和Y都是金融领域的,都是来自金融行业自身的。
在美国这个问题不大,因为美国80%的人都是有信用记录的,X都是充足的,80%的人都有X。但是在中国这个完全是倒挂的,中国有信用记录的人大概也就20%,80%的人没有信用记录,所以导致今天谈普惠金融、消费拉动经济结构转型,其实都遇到一个金融基础设施的问题,就是没有征信体系支撑。所以银行不愿意服务小企业,个人想去银行借钱是非常难的一件事情。这个事情不解决,今天谈所有的普惠金融、P2P都是空谈,要不就是个人骗了银行的钱,要么是银行不给你借钱。
二、线上线下融合的大数据风险与营销建模思路
这里有个类似的公司可以对标,我不说这个公司有多好,我讲讲它的思想体系。在中国创业公司是不可能获得银行授信的,艾师兄的公司有可能,但是百融这个公司是不可能拿到银行贷款的,但是它的公司居然有5000万资金是银行借给它的。用户在网站上填的信息是没有什么创新的,第二个,网站的行为轨迹,我可以讲讲。比方说一个人写姓名有四种填法,姓是全大写的,名是首字母大写,后面小写。第二种是全大写,第三种是全都是首字母大写、后面字母小写,第四种是全小写。后来他们问我,这四种人谁风险高、谁风险低。其实我刚才没考大家,我的顺序就是风险依次升高,我没有故意打乱顺序。因为按照欧美的标准填法,首字母大写的人是最严格的人,最随意的是第四种,全都是小写的,这个反映了你的严肃认真态度,也反映了你的受教育水平。
他又问我一个问题,一个人在网站上停留了10分钟决定贷款,另外一个人停留了30分钟决定贷款,谁风险高?因为借款是一个很严肃的行为,如果说你很随意的话,你其实不还钱的时候也很随意,很认真的人可能仔细考虑什么样的条款是适合我的,所以时间越长的时间是信用越好的。
第三种就是互联网数据,在中国的效果会更明显。美国父不一定代偿子债,在中国不是这样的,在中国基本上90%父都会偿子债。有人说美国的SNS数据效果不好,但是我们发现在中国效果还是可以的。最后还有一类是保密的数据,这个模型用了7万多个变量,不同的算法都有自己的缺陷,都有它的优点、缺点,这个效果比单一模型效果要好。我后来私下里问过效果到底怎么样,他跟我讲80%没覆盖的人群上提升效果是比较有限的,但是在次贷人群身上效果是非常明显的。
三、数据实践效果分析
我们就看看在中国的实践,我们公司怎么做这个事。因为过去最早是做电商、零售起家,我们跟很多电商有合作。最后慢慢积累了大概5亿人的数据,有他的手机号、身份证号、邮箱、地址信息,还有8亿人匿名的,只有互联网的手机硬件编号、PC cookies,当然中间有重叠的人,大部分人群是50岁以下、15岁以上的,我们认为是中国当前和未来的主力消费人群,我们有有六七千万人是50岁以上的,但是占比比较少。因为我要去借钱,我会有意无意的美化自己,他至少有这个动机,但是这个人日常的消费、阅读、社交是没有什么动机造假的,因为这个对他没有什么好处,所以这个数据非常真实。另外一种,用户的身份识别比较准确,可能有些人有两个手机号、三个手机号,他平时干好事的时候用一个手机号,干坏事的时候用另外一个手机号,这都是我们发现的。如果说我们知道这两个手机号都是他一个人在用,我们会把两个手机号背后的行为附着到一块,把一个相对完整的画像呈现给金融机构,这个是极为重要的。
后来基本上在第三方市场我们有90%的市场份额了,我们每天能捕捉到8200万人的行为数据,50%的行为来自移动设备,这是非常可怕的事情,手机让一个人没有隐私了,24小时在线。还有一部分数据来自于线下,我们目前40%的数据都是线下的。
怎么获取数据呢?比如有的人为了获取贷款,他会授权我们去读网站的数据,把用户密码告诉我们,授权我们去读,最后给你个评估。第二种,我们跟商家合作,商家给我们数据,当然商家是授权过的,商家允许我们使用,同时商家也告诉消费者这些数据要给到百融公司。这也是例子,某个电商网站在用户协议里面写了一条,我们可能会给你提供消费信贷服务,这个服务是百融提供的。这是一个所谓的用户画像,人口统计学特征、通用标签、价值标签,长期喜欢买什么,短期喜欢买什么,读什么书,社交圈。
下面我们讲讲效果。我们在第一家银行测试,130万信用卡中心,这个银行几乎拿出了信用卡中心所有资产的10%做验证,给了我们130万。我们挑了一部分,这些人信用不错,最后验证发现这群人的不良率大概是我们挑剩下的人的二分之一,我们挑了接近70%的人的违约率比剩下30%的人低了二分之一左右,挑之前我是不知道用户好坏的。
我们讲讲我们的思路,我先不谈宏观层面,就谈微观层面两种,欺诈风险防范和信用风险防范。什么叫欺诈风险?人家上来从来没想过还你钱,就是来骗你钱的,这个时候一般来讲他不会用自己的真实身份,他会造一家假,所以欺诈风险防范的核心是身份验证,不是简单的事情。第二种是信用风险防范,刚开始事情贷款的时候并没有想不还钱,之后还款能力出了问题,或者是他觉得不还款也没问题,这个有时候不好预测,刚开始没有强相关性。
怎么防欺诈呢?我们过去6年做了很多金融行业之外的应用,编织了一张关于用户各种ID映射关系的网络。传统金融机构做身份验证常用的就是查公安部的身份证号码和姓名是不是一个人,对得上的特别明显的骗子也就是1%左右,还有很多骗子是查不出来的,还有一些准实名ID,银行用的不太多了,因为它觉得手机号没法对,手机号是可以换的,地址一般会用。匿名ID是互联网的QQ号、微博号等等,金融机构完全不用,但这个防欺诈非常有效。
我的一个客户,光大银行信用卡中心的风险部老总,他们去年去上海卧底,他回来分享,他装成要做贷款的客户,很多中介客户经理都放上了一摞SIM卡,办贷款的时候身份证号码和姓名都是真的,也有可能是中介帮我买的,这个产业链是很成熟的,他可以从农民伯伯那买,农民伯伯卖的,他赔不出来的。所以这个查不出问题,身份证号码跟姓名对得上,手机号码不能说人家是假的吧?他每帮你办一张贷款就扔一张SIM卡。这个时候你怎么防他?很多中介是银行出来的人,他知道银行问什么问题,但是有一点,我们说一个中介可能一年帮500个人办,你至少会打500次电话,这个SIM卡用一次换一张,但是手机不能老换吧?我们也发现一个中介桌上10个手机,但是你算这个账,500个人10个手机,平均一个手机要插50张SIM卡。如果你发现一个手机硬件编号不变,那个硬件编号对应过很多SIM卡号,对应过很多身份证号码,这个人一般就是个骗子。
我们看这张图,红色圈是一个手机,紫色是电子邮件地址,浅蓝色是身份证号码,中间这个手机,它曾经跟4个身份证号码发生过关系,这个人是个高风险人群,与他相关联的4个身份证号码都是高风险。一个设备如果我们发现它在一段时间之内申请过N次贷款,这个风险是很高的。当然还有一些,比方说我们发现有些人老换手机号、老换地址,这也存在欺诈嫌疑,申请人填的地址跟我们公司发现的日常消费用的地址如果离得很远,存在欺诈嫌疑。如果一个人90天之内申请过5次贷款,他的平均欺诈率是其余人群的3倍;如果一个人在金融机构那里留的地址跟我们公司的地址拿过来做匹配,这个经纬度差异超过5公里,它欺诈率是平均不到5公里的3倍,这都是真实的数据。
再看信用风险的防范,我举几个简单例子。比如说我们发现在三四线城市,在游戏动漫上花钱比较多的人不良率是比较高的,为什么?这些城市本来挣钱能力就一般,他花了1500块钱打游戏,你的钱借给他,理论上来讲应该是提高生产率的,但是他没有用来提高生产率。第二种,经常爱看财经、管理、科技类图书的人,他的风险率是比较低的,这种人跟还款意愿比较高有关。
我们看一下实际的效果,这是某家银行真实的数据,这里数据有点专业了,银行可能经常用的,顾师兄比较专业,他们用KS值来评判模型的好坏。你要把KS值弄大一点,要把A弄大一点,把B弄小一点,它是一个综合指标。一般的新客户申请叫A卡模型,KS值能做到0.4就非常少了,如果说没有人民银行报告,我们当时做到0.49分,目前线上跑的模型是0.48分,一般来说线上跑的会比建模的时候稍微差一点,但是0.4以上就已经很好了。这个是新客户,人民银行那没有数据的。
我们再看一些例子,我们来看我们公司的人,横轴是手机号使用的年限,纵轴有两个,一个是这群人的人群占比,点线是违约率。手机号用了9年以上的人是0.06%的违约率,手机号用了不到一年的人是4.4%的违约率。大家如果搞模型肯定会看到一个问题,你这个图后面都是平滑下降,但是第一个柱子跟第二个柱子之间违约率是跳的,为什么?因为使用手机号不到一年的人里面有很多是欺诈的,他怕你找到他,所以它那么高,如果是信用问题的话,它就应该是平缓变化的。
我们再看看消费跟我信用风险的关系。这个横轴是你爱在本地花的钱在我们公司观察到的人群当中排名多少。最右边的人是您比80%的人在本地花钱多,第二个柱子是您比60%的人在本地花钱多,从左到右风险也是依次降低的,但是也是一样,第一个柱子,如果我们公司没有观察到你在本地有消费,那么你有4.0%的违约率,如果有的话,哪怕一点点,哪怕是一分钱也算,是1.7%的违约率。为什么这个图也是这样?第一个柱子和第二个柱子中间是一个跳跃式的下降,因为有欺诈在里面。如果你在青岛借钱,在西安花钱,那很有可能你就是欺诈,拿钱跑路的,所以这里头自然就导致它不是平缓变化的。其实也不是说你真的在本地没有花钱,可能是我们公司没观察到,你花现金我们就不好观察了。
再看我们的模型,在美国100例模型是最好的,在中国由于外资受限制,所以顾师兄他们公司没办法。这个模型是从300分到1000分之间,也是一样,分值越高的明显违约率下降。柱子是人群占比,点线是违约率。我们看一个柱子,600分到650分的人占了人口20%左右,违约率7%左右,这就有点像保险金算表,每一个人过来借钱,你要算清楚它落在哪个人群区间里面,如果是落在600到650分,意味着您的年化利率至少有7%才能维持不亏钱。中国目前的征信体是这样的,大部分人都落在左边,但实际上人家不是坏人,只是因为他不能证明自己是好人,所以被划到左边了。中介力图把本来属于左边的人放到右边去,我们的目标是各就各位,应该落在哪里就落在哪里。
去年招商银行给我们发了一个评审结果,我们跟它去年3月份开始上线合作,到了12月份给我们搬的评审结果,是所有供应商里面的第一名,95分,这是招商银行有史以来从来没有过的合作半年的公司得第一名,他们确实很想做互联网金融,找不到合适的方法。光大银行,我们去年搞了大数据风控创新项目。
下面讲讲我们评分卡里的一些东西,比如说第一大行是消费类的,第二大行是阅读类的,经常在娱乐、游戏、动漫上花钱的人信用分值是36分,但是经常在餐饮食品、出差旅行上是64分。第一个已经说了,挣钱不行还老花钱。差旅花的比较多,可能也是挣钱比较多的人,当我第一次看到餐饮食品花的比较多的人,我当时第一下没反应过来,后来我研究这群人,发现这人群是比较稳定的人,他买柴米油盐酱醋茶,他在网上买这种东西的话,说明他就打算在这长住。第二大类是阅读媒体类,也是一样,还有读科教、管理的,也是信用比较好的。第三大类就是各种广义ID的匹配,身份证、邮箱有没有匹配上,只匹配上一个的,风险比较高,所有都匹配上是比较靠谱的。每一项就有一个分值,最后分值是加出来的。
王懿:非常感谢张韶峰先生的精彩发言,也让大家看到了百融金服为国家全民信用体系的建设和普惠金融的实现贡献了一己之力,大家也真的有很多感触。我特别同意他刚才说的为什么买超市食品的人信用会更好,因为我觉得吃货的世界是无敌的,他就是吃,不会去想别的。下面是我们的提问环节,五分钟吧,因为后面还有两位重要嘉宾,我们给他们留一些时间,大家看谁来提问题。
嘉宾:我刚才听您的报告刚才很吃惊,因为之前从来没有听说过百融金服,但是您居然取得了6亿的数据,我就想知道您的数据是怎么获得的,会不会牵涉到侵犯个人隐私?我的数据是不是已经取得了?
张韶峰:本来想给大家做演示,如果能上网我会给大家做个演示。我们过去给很多电商公司提供服务的时候,我们是云模式提供的服务,他们会把消费者数据给我们共享,很多网站有猜你喜欢的商品,或者说看过本商品的人还看过什么商品,那种服务很多都是我们提供的。
嘉宾:你得说一下,那家公司叫百分点。
张韶峰:对。可能不同人上去看的猜你喜欢的位置和商品是不一样的,不一样的是帮您做了个性化订制,你看到的跟人家不一样是我猜你喜欢它,这样能提高销售额。我们当时跟电商网站谈好我们是打通模式,你的数据存到我这里,它的数据存到我这里,这样比一家公司做出来的效果好。慢慢做到2000家左右,所以积累了这么多数据,要是线下是不可能的,只有互联网才可能,一家互联网公司1000万用户,超过你的想象了。
嘉宾:还是数据来源的问题,您刚才谈到您是只用爬虫技术吗?您还是跟移动、联通合作,直接从它的数据流里面获取个人信息?
张韶峰:大家看麦包包这个网站。这里不是有一个发现喜欢吗?这一块位置我们叫虚拟货架,就是外包给我们公司来运营的。大家看这个商品,买过本商品的麦友还买过什么商品,你看这个LOGO,把鼠标放到这,百分点推荐。再看第一财经这个新闻,这里有个猜你喜欢,点一下这个LOGO就跳到百分点的主页上来了,我是百分点的三个合伙人之一。包括第一财经下面的文章,猜你喜欢的文章也是我们提供的,2000家都是我们提供的,随便一家都是上百万的用户。
原文发布时间为:2017-03-05 本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号