大数据在P2P借贷上的四大要素

简介:        现在P2P借贷领域的许多人,包括我自己,都喜欢使用借贷平台提供的大数据来分析趋势和帮助自己更好地了解借款人,以及分析他们的行为,从而来控制我们在 P2P借贷市场上的风险。借贷平台的网络属性使得许多早期的零售投资者是以技术为导向,因此一直存在着一种误解就是,要想成为一名成功的投资者,你需要学 会了解并利用大数据。
0.jpg

       现在P2P借贷领域的许多人,包括我自己,都喜欢使用借贷平台提供的大数据来分析趋势和帮助自己更好地了解借款人,以及分析他们的行为,从而来控制我们在 P2P借贷市场上的风险。借贷平台的网络属性使得许多早期的零售投资者是以技术为导向,因此一直存在着一种误解就是,要想成为一名成功的投资者,你需要学 会了解并利用大数据。如果你愿意自学一些信贷和金融技术来帮助你在P2P借贷领域做出更好的投资决策,你就会知道事实并非如此,而且可谓是大错特错 

大数据并不能解决所有问题,你需要了解在关于大数据在P2P借贷上的四大要素。 

要素1:大数据只记录过去绩效 

任何曾经从经纪人处卖出过(或曾打算卖出)互惠基金、股票、债券或则其他投资资产的人,都听说过或者接触过这个条款——过去的表现并不能预示未来 的结果。这是真的,它确实无法预测。那些我们从历史记录得到的重要信息,如支付历史、FICO信用得分和贷款清单上的不良信用者,都只是向我们展示了我们 的借款人的过去行为。他们是否有按时还贷的历史记录?这并不意味着他们将来就会按时清偿贷款,但的确,特别是在无重大变化发生时,如失业或者重大疾病等, 清偿的可能性会比较高。没有人知道未来会发生什么,我们需要记住的是历史记录无法预测未来,它只是过去的记录。 

要素2:贷款池小且新 

以Lending  Club为例,它从2006建立至2012年11月发行了它的第一个10亿美元的贷款。到2013年5月(6个月后),他们成功发行了第二个10亿美元的 贷款。到2013年11月,即他们第一个10亿贷款发行一年后,他们发行了第三个10亿美元贷款,达到了30亿美元的总发行额。这意味着今年的5月至11 月之间,他们发行了另一个10亿美元的贷款。所有这些都是从Lend Academy 上的Lending  Club月度交易量分析中得出的。这意味着所有贷款中,有2/3的贷款期限都不超过1年。有些人会说我们无法收集任何有意义的数据,但是许多人会同意,我 们能从历史记录中获取最有意义的数据,并分析出早期支付违约的可能性。如果我们能够获取所有数据,我们会发现,我们可以用作参考的长期数据贷款池是很小 的。 

我们贷款资产组合面临最大的问题是早期支付违约,即前六个月以内的违约。我们建立了一个贷款期为六个月以上的20亿美元贷款数据库,用来查看哪些人延迟支付,以及哪些人早期违约了。而且,由于议定贷款的最新出现,造成获取那些有意义的数据十分困难。 

要素3:大数据将那些相互影响的因素独立开来 

数据的有效性十分重要,你可以研究在周二发放,且限定于FICO分数为750的CA借款人的债务重组贷款。大数据的一个好处是你可以使用它来研究 任何有意义或具有潜在意义的变量。我们在此讨论的一些变量包括FICO得分,不良借款信息,公共文件,所在州,房产,受雇年限等等。对我们而言利弊兼有。 好处是显而易见的,我们可以对这些我们认为重要的因素进行研究,来降低我们的风险。 

问题 

使用大数据研究所有的这些变量所存在的问题就是,它会孤立这些变量,正如如果我想通过公众文件来进行核实。起初这听起来这并不坏,甚至听起来是件 好事。问题是,这些因素中的一些是彼此相关的,孤立他们来进行研究是没有意义的,孤立他们会减弱这些变量的价值。例如,信用得分就取决于很多我们之前讨论 的因素,其中包括:最近支付记录、良借款人信息、公开呈报、信用调查、循环可用信贷和债务收入比等等。当我们通过信用评分筛选时,我们已经将这些因素考虑 进去了,因此将这些因素割裂开来看实属多余,甚至对质量筛选有害。因此,如果我们需要高的信用得分及无不良记录,同时,我们也知道无不良记录会提高信用得 分,那么我们也就是在重复计算这些因素,因而与其他信用相关的因素形成对立。 

要素4:相互关系不是因果关系 

科学家和研究者都深谙此道。也就是说两件事物相关并不意味着一件事物的发生会引起另一个事物的发生。举一个典型的例子:我关于通过所在州进行筛选 的主题。我们提到CA拥有最高的违约率。它也拥有到目前为止最多的贷款数量,因此,如果你拒绝CA的贷款,你将会明显地减少你的可利用贷款池。这也意味着 所有CA的贷款都会因为筛选标准而被排除在外。无疑是一棒子打沉一船人。信用得分就是个很好的例子。自然,公开呈报会降低借款人的信用得分,而且确实是这 样。然而,这种影响无处不在,可大可小,取决于类别和时间。一个很小的来自五年前的信息同对一个六个月前的借款人的判断是不同的,虽然他们都是公开呈报。 前者,由于是在六个月内,因此很明显地影响了借款人的信用得分,而后者,对分数只有很小的影响,正如同我们对借款人偿付能力的看法是一样的。 

结论 

你无需成为一个擅长于操纵数据的人,或许你不是这类人更好。因为,当我们考虑所有那些可利用的大数据时,所有人都会很容易掉入陷阱。当我们在进行 数据分析时,如果能够记得所有这些因素:大数据只是对过去的记录而不具备预测性,而我们的贷款池小且新,大数据将相互依存的变量孤立开来,相互关系不意味 着因果关系,我们就会在P2P借贷领域领先于其他投资者一步,并且非常清楚我们贷款组合所面临的风险。


原文发布时间为:2014-01-24


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 Cloud Native
探索在云原生环境中构建的大数据驱动的智能应用程序的成功案例,并分析它们的关键要素。
大数据索引: Google使用大数据索引来构建其搜索引擎,并实时处理全球各种语言的文本数据。 云原生基础设施: Google Cloud提供了强大的云原生基础设施,支持大规模数据存储和处理。 自然语言处理: Google使用自然语言处理技术来理解和索引文本数据,从而提供高质量的搜索结果。 实时搜索: Google的
132 0
|
12月前
|
安全 大数据 数据安全/隐私保护
瓴羊Dataphin隐私计算:数据安全流通方案-大数据产业发展概览-数据要素市场的发展趋势
瓴羊Dataphin隐私计算:数据安全流通方案-大数据产业发展概览
|
数据采集 存储 监控
谈谈从DAMA、DCMM和DGI三大数据治理框架详细了解数据战略规划的关键要素
当前,数据作为新的生产要素提到了关键位置,众多组织认为数据是重要的战略资产。
谈谈从DAMA、DCMM和DGI三大数据治理框架详细了解数据战略规划的关键要素

热门文章

最新文章