大数据降噪方法论

简介:

部分机构掌握了一定量的客户信息数据,就以为掌握了大数据,忽视对数据分析工具和方法论的研究。在金融业务中,这有可能影响其对风险的识别和防控,并造成风险的积聚和扩散。

最近,《互联网金融风险专项整治工作实施方案》全文网上曝光,包括第三方支付、P2P网贷、股权众筹、互联网保险、投资理财,以及互联网跨界资管,甚至互联网广告,都将面临一轮集中整治。

分析整治的原因,会发现在法规不够健全、监管不够有力,行业自律较弱,投资者教育欠缺外,还有一个重要的症结——企业和机构对大数据技术的理解和认识存在一定偏差。

大数据技术的发展和进步给人们提供了新的工具,即从更宽视野、更多维度、更全方位来认知问题和分析问题的方法。但部分机构掌握了一定量的客户信息数据,就以为掌握了大数据,忽视对数据分析工具和方法论的研究。在金融业务中,这有可能影响其对风险的识别和防控,并造成风险的积聚和扩散。

因此,在互联网时代,企业和机构对大数据的认识,需要结合正确的方法论、认识论,处理好碎片化的信息和完整性的数据、以及结构性的数据和非结构性的数据的关系。

大小不能以量区分

有人认为,有了大数据,就可以轻视对传统小数据的开发和利用。但大数据有大数据的长处,大数据也有大数据的不足,两者无法相互替代。

尽管迄今为止,并没有对大数据统一而权威的定义。但大数据的重要特征,在于它应该既包括结构性的数据,以及在生成的时候表现为非结构性数据的信息。而小数据,主要是指传统的二维结构性数据。

从技术角度上看,传统的小数据有经典的数理统计分析模型和成型的挖掘技术。而大数据的管理理论、分析方法仍在快速发展和跟进,特别是要采集、挖掘和使用非结构性的数据,仍没有完全成型或者定型。此外,还有一部分非结构性的数据,在最后使用的时候需要通过技术手段把它转换成结构化数据才能实现。

从处理角度上看,大数据会随着数据量的急剧增加,其中的数据噪音会有快速增长。有时,数据噪音的增长幅度会快于数据量的增长幅度。因此,在大数据领域,对其挖掘、筛选、清洗的成本,将会明显高于小数据。

从相互关系的角度看,大数据通常比较容易反映的是事物的相关关系,而小数据往往容易得出的是事物的因果关系。在很多情况下,相关关系是不能简单地代替因果关系的。小数据它可以抽取世间的一些事物最核心的内容,最基本的内容。因此与大数据相比,小数据的单位信息容量更大,所以大数据的颗粒度和小数据的颗粒度不同。

以银行的数据为例,我们经常定义其为小数据,因为它都是以会计为基础,以计算为方式表现出来,反映了交易活动最核心的内容和最终的结果。比如,客户存款多少、贷款多少、买了黄金多少等等。但是,客户之所以进行这个交易、他的决策过程、行为路径,就无法通过传统的小数据,也就是银行的账本反映出来。

而收集这类信息,却正是大数据的优势。作为一家银行,如果能够通过收集、掌握大数据,了解客户的行为路径,了解客户的决策过程,无疑对提升服务水准、防控金融风险价值很大。所以,只有把小数据方法的完备性、准确性,同大数据分析的多维性、及时性融合起来,才能对管理带来一种质的飞跃。

风险不应自我回避

《巴塞尔协议III》中,要求银行业在观察客户的违约概率和违约损失率时,数据积累的长度必须长于5年或7年,甚至更长时间。此外,对于数据清洗还要有严格的流程。巴塞尔委员会之所以做这项规定,就是为了避免因为数据的缺陷,而导致在风险识别和计量上出现失误。

但在新晋互联网企业对投资人和客户的宣传中,往往会看到一句话:运用大数据技术。且不论这种对客户群行为数据的保留和采集是否经济、合理和必要,单从数据是否完整上看,就已经把自己得到的数据误以为是全量数据;把自己所拥有的一个样本,认为是具有充分代表性的随机性的样本。

盘点部分“出事”的互联网金融公司,除了一些人为的原因,大多数都存在这种对于数据的片面理解,过分高估了自己的数据处理能力——对自己拥有的这些数据,究竟能不能用,应该怎么样用于风险识别和管控,他们并没有经过反复验证。

但凡了解建模、数据分析和数据挖掘的人,都明白模型越是复杂,纳入的变量越多,就越容易出现这样的问题。这个也证实我们在金融风险的管控当中,必须注意到的模型风险。在看待信用风险、市场风险时,都要借用大量的模型,而模型的质量怎么样,模型是否可靠,实际上最终决定了对信用风险、市场风险、操作风险的识别和计量是否准确。

这就像金融企业面对的客户,客户的个性化、差异化很大,要对他们各自的违约风险和违约损失做出判断,仅靠一些模型的评估可能还不够,有时还需要借助必要的专家判断。

比如审批贷款时,会采用高分段自动进入,低分段自动拒绝、中段分段机器识别以后加以必要的人工干预的方法。这就是为什么有的时候大家经常抱怨银行效率太低,放一个贷款需要审来审去。首先,高分段经过严格的评估以后,高分段大体占到个人按揭贷款的20%左右,进行自动审核的。而企业贷款,法人贷款,是要经过模型识别通过以后,才能进行第二轮判断。

大数据时代可能更迷茫

大数据的优势,在于其可以直接把音频、视频,包括文字非结构化的数据都能数据化,这样的话分析使用起来就会很便捷。但在记录当中,可能搀杂着噪音、埋伏有陷阱。所以,对于数据信息的不当理解,对于数据分析方法工具的盲目应用,让我们面对茫茫数据时,有可能变得比以往缺乏数据信息的年代更加迷惑。

因此作为数据的使用者,我们应该明确的是,人不能成为机器的奴隶,因为机器和模型都是为我所用的,本身就是人设计的。同时,并非世间万物都是可以数据化的,比如人的情感。

尽管有人说,未来的一切都可以数据化,比如现在,有人已经通过云计算和大数据分析写文章。但我认为,一些数据化较强的分析文章可以写,因为这类文章本身就公式化的。但是,类似《红楼梦》这种充满情感的文字就不太可能,因为通过自动生成的诗词,很难达到较高的艺术水准。

因此,作为互联网时代的现代人,只有学会了怎么样客观地看待数据,怎么审慎地选择方法,才能从这个复杂的社会中提炼出比较有价值的结论。也只有这样,才是真正具备了大数据思维和互联网思维。
本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 分布式计算 搜索推荐
连载6:阿里巴巴大数据实践:大数据建设方法论OneData
避免重复建设和数据不一致性,保证数据的规范性,一直是大数据系统建设不断追求的方向。
7203 1
连载6:阿里巴巴大数据实践:大数据建设方法论OneData
|
大数据
《大数据咨询方法论白皮书 & 360°数据管家》电子版地址
大数据咨询方法论白皮书 & 360°数据管家
56 0
《大数据咨询方法论白皮书 & 360°数据管家》电子版地址
|
机器学习/深度学习 存储 人工智能
后疫情时代的城市医疗大数据,需要怎样的建设“方法论”?
找准自身定位,医疗大数据产业的上下游企业将大有可为。城市级健康医疗大数据体系建设,是一个很宏大的命题。
|
人工智能 算法 大数据
奇点云发布《大数据咨询方法论白皮书》,首次定义大数据咨询
2019云栖大会上,奇点云正式发布《大数据咨询方法论白皮书》,希望帮助更多企业用切实可行的方法来了解自身数字化转型状况,对自身数字化转型做出有利判断。
1988 0
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1