社交网络数据征信的作用你猜有多大?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

巨大的信贷市场需求与稀疏分离的数据造成了金融机构征信与风控上的困局。随着互联网与数字技术的发展,有条件的企业开始了五花八门的征信服务,而民间企业推举最多的就是社交网络大数据征信评价。社交征信应运而生自有其作用,但这个作用有多大呢?似乎也没有达到大家所给予厚望的程度。

其作用大概只占5%-10%

业内人士分析称,目前来说,社交网络数据作为弱变量数据,其在大数据征信中的作用有限。国内运用人工智能与大数据做征信的初创企业星桥数据董事长丁卓博士表示:“其实,社交数据征信在做360度的用户画像刻画中,其作用大概只占5%-10%。对于金融行业的评估来说,这些数据不能作为直接的评价参考。”

同时算话征信CEO蒋庆军告诉雷锋网(公众号:雷锋网),海量的大数据中和个人信用表现即所谓的Y变量能关联起来的实际数据是很薄弱的,这种关联数据不容易获得,建模的数据也是不够的,当然更不容易开发出成熟的评估模型。

再者,社交网络上的数据真实性有多高?我们作为社交网络的主力军用户,深深知道朋友圈、微博、空间的状态与评论互动大部分实质可归结为感性的“秀炫晒”,那么机器根据预先设置的特征参考提取出信贷机构希望获取的数据之后,由此而形成结果就是对象的真实用户画像了?

去年8月,国外社交巨头Facebook推出了涉足社交大数据征信的专利——当一个用户申请贷款的时候,贷款方会审查该用户社交网络好友的信用等级。只有这些好友的平均信用等级达到了最低的信用分要求,贷款方才会继续处理贷款申请。否则的话,该申请即被拒绝。而在此之前,阿里巴巴旗下蚂蚁金服推出的芝麻信用分也在使用人脉关系、消费行为作为评估信用水平的依据。

国内,腾讯征信总经理郑浩剑日前也阐述了腾讯对于互联网征信建设的探索,该公司主要依靠大数据与人工智能技术,基于旗下微信、QQ等近十亿用户的社交数据来进行征信工作,通过把结构化数据,文本分类,LBS数据,社交网络传播扩散等挖掘之后形成用户画像刻画。

然而国际上似乎还有社交征信成功的案例。上述的例子中,Facebook的做法因其片面性被《大西洋月刊》评论称“涉嫌贷款歧视”:有批评人士认为,这项专利重现了历史上著名的“贷款歧视”做法:“Facebook 想要以你的好友名单为理由拒绝贷款”。这在芝麻信用的人脉应用中也是一样的道理,但芝麻信用征集了消费行为数据作为补充,或者其实是后者为主导。

至于腾讯,腾讯合法获得的用户数据大多数都是QQ及微信用户的行为记录,但这些行为记录对于征信的利用价值却很低。那么,为了达到评价个人的目的,腾讯也许不得不利用用户的内容数据,而一旦涉及用户的交流内容记录,那就有可能像Facebook那样被认为触及到用户隐私保护的法律问题。

归其原因:社交数据是弱变量弱相关

“实际上,对于根据社交数据分析出的结果,我们只能将其作为整个信用报告的补充,因为消费者在社交网络上的关系只是松耦合,而不像是在企业机构中形成的紧耦合关系,”丁卓解释道,在企业中每个人的薪酬、流水等都是确信的,但在社交网络上,内容都是随性的。“所以,社交网络分析只能作为征信对象在基础数据、深度数据以外的余信数据补充。”

在数据类型中,数据可以被分为强变量数据,即信贷、信用卡、社保、工商等来源于传统金融机构和政府机构的信息;和商品生产、流通、消费等环节产生的中变量交易数据,以及社交、游戏等弱变量数据。

“在14000个数据源、70万个来自于不同维度的数据变量中,我们结合金融机构的业务逻辑,分析变量的相关性系数,统计出其中从强到弱递减的变量关系,而社交网络数据明显属于弱相关变量。”星桥数据的核心团队当中,有12名计算机科学与金融学领域的博士,27名硕士,其首席数据科学家、肯塔基大学计算机博士林振民与团队一起,对数据变量的系数进行了数年的研究。

最重要的是,NLP(自然语言处理)仍然是个世界级难题,Google、微软也没有很好的解决方案。所以,目前的机器学习对于社交数据的处理准确度并没有很高。如果有好的解决方案,意味着整个迁移学习、机器学习领域都会有一些质的进展,同样,目前利用机器学习、人工智能进行的大数据征信和风控也会随之获得进步。

大数据征信还需在强、中变量着手

丁卓博士坦言,如今360度刻画中,FICO模型的作用仍占到50%左右,而剩下约45%的部分,则有赖于征信对象的交易行为数据来完成。丁卓介绍,传统金融机构对客户的信用评级一般依靠FICO模型,但这套模型在信贷、信用卡、外汇、民间借贷等强变量金融交易数据的基础上才适用,“在下沉到年轻用户和小微企业等客户的过程中,FICO就有很多需要改善的地方。”

这也是星桥付出极大的代价去对接京东、阿里巴巴、百度等互联网平台数据,打破数据隔离和信息孤岛的原因。丁博士透露,在谈判的过程中,能够通过第三方中立机构间接实现与其他大公司的数据资源共享,是他们彼此合作的支撑。“大数据的意义在于,能够通过机器学习、语义分析等技术,把海量数据的相关性计算出来,连接起来进行动态分析。”

星桥的客户包括工商银行、招商银行,据丁卓透露:“目前来说,银行的信贷客户以大型企业为主,但事实上他们也有获取新客户方面的担忧。因为从长远可持续发展来看,他们也要获取更多小微型企业(供应链金融)以及年轻用户群体(消费金融)等的客户。通过合作我们了解到,很多银行也想开展普惠金融业务。但由于对这部分客户掌握的信息较少,他们不知道怎么做。他们不了解普惠金融的客户群的特征,也不知道应该如何判断这部分客户的信用评级,因而不敢贸然开展。”

所以,在科技推动金融的发展背景下,适用于大型企业的FICO也需要有一个标准再适应市场的过程。“面向年轻用户和小微企业等建立更符合他们特征的模型,这是未来五年内,银行与征信机构必须要做的事情。”






本文作者:温晓桦
本文转自雷锋网禁止二次转载, 原文链接
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
10月前
|
机器学习/深度学习 算法
R语言分类回归分析考研热现象分析与考研意愿价值变现
R语言分类回归分析考研热现象分析与考研意愿价值变现
|
10月前
|
机器学习/深度学习 算法 数据挖掘
社交网络分析7:社交网络舆情分析 、 社交网络舆情演化传播建模 、 社交网络舆情用户研究 意见领袖识别 情感分析 、结构洞 、 生命周期 、 舆情分析 知识图谱 主题图谱 、 异质平均场
社交网络分析7:社交网络舆情分析 、 社交网络舆情演化传播建模 、 社交网络舆情用户研究 意见领袖识别 情感分析 、结构洞 、 生命周期 、 舆情分析 知识图谱 主题图谱 、 异质平均场
1056 0
|
数据采集 自然语言处理 JavaScript
基于50W携程出行攻略构建事件图谱(含码源):交通工具子图谱、订酒店吃饭事件图谱等
基于50W携程出行攻略构建事件图谱(含码源):交通工具子图谱、订酒店吃饭事件图谱等
基于50W携程出行攻略构建事件图谱(含码源):交通工具子图谱、订酒店吃饭事件图谱等
|
数据挖掘 搜索推荐
带你读《广告数据定量分析:如何成为一位厉害的广告优化师》之二:广告数据分析中的统计学原理
这是一部面向初级广告优化师、渠道运营人员的广告数据分析和效果优化的实战指南。数据分析功底的深浅,决定了广告优化师能力水平的高低。这本书一方面告诉读者成为一名厉害的广告优化师需要掌握的数据分析技能,以及如何快速掌握这些技能;一方面又为读者总结了SEM广告、信息流广告、应用商店广告数据的分析方法论和效果优化的方法,以及多广告推广渠道的统筹优化。书中提供大量真实数据案例,助你提升广告数据分析的理论深度和业务水平。
|
数据挖掘 大数据
带你读《广告数据定量分析:如何成为一位厉害的广告优化师》之一:广告优化中的统计学
这是一部面向初级广告优化师、渠道运营人员的广告数据分析和效果优化的实战指南。数据分析功底的深浅,决定了广告优化师能力水平的高低。这本书一方面告诉读者成为一名厉害的广告优化师需要掌握的数据分析技能,以及如何快速掌握这些技能;一方面又为读者总结了SEM广告、信息流广告、应用商店广告数据的分析方法论和效果优化的方法,以及多广告推广渠道的统筹优化。书中提供大量真实数据案例,助你提升广告数据分析的理论深度和业务水平。
|
数据挖掘 搜索推荐
带你读《广告数据定量分析:如何成为一位厉害的广告优化师》之三:广告数据的描述:图表
这是一部面向初级广告优化师、渠道运营人员的广告数据分析和效果优化的实战指南。数据分析功底的深浅,决定了广告优化师能力水平的高低。这本书一方面告诉读者成为一名厉害的广告优化师需要掌握的数据分析技能,以及如何快速掌握这些技能;一方面又为读者总结了SEM广告、信息流广告、应用商店广告数据的分析方法论和效果优化的方法,以及多广告推广渠道的统筹优化。书中提供大量真实数据案例,助你提升广告数据分析的理论深度和业务水平。
|
Web App开发 安全 数据安全/隐私保护
以讹传讹,社交网络的欺诈套路太深
本文讲的是以讹传讹,社交网络的欺诈套路太深,上个周末,你的社交网络肯定被一则消息刷屏了,这则消息声称主要的航空公司正在免费提供机票。
2241 0