大数据征信进入洗牌期,区块链或成新一代征信系统底层架构

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 区块链技术助推新一代征信系统体系建设。

由于中国的消费金融需求旺盛但服务相对落后的行业特点,导致行业内数据滥用现象严重。

此前,人民银行征信中心副主任汪路在公开场合表示,在当前征信体系已经严重滞后于经济、金融发展需求的情况下,这些弊端应当受到高度重视并有效解决,以促进征信体系建设的顺利推进,降低经济和金融风险。

滥用数据现象体现了行业对个人征信市场的迫切需求,而随着百行征信的设立以及监管的重拳整治,野蛮生长了几年的大数据征信行业,进入洗牌期。

搭建个人征信体系需求迫切

“爬虫技术对个人隐私、数据滥用有推波助澜的作用。但这也从另一个角度体现了市场对于个人征信数据的一个需求。”北京大学金融智能研究中心研究员刘新海对第一财经记者表示。

目前,行业内滥用数据现象严重。刘新海认为数据滥用现象,主要可归纳为三类,一是采集数据过多,并未经过消费者本人同意;二是非法购买、数据倒卖;三是爬虫技术获取。

此前,消费金融领域一直是信息泄露的重灾区,倒卖数据现象比较严重。例如,用户在互金平台申请贷款时,需要填写电话号码、身份信息、银行卡等信息外,还要填写信用卡、车辆、公积金、甚至淘宝等网购平台的消费账单等,这些数据常常被数据供应商拿来倒卖。

在互金行业内,互金公司获取消费者的数据成本在运营成本中占比较高,造成了很多P2P等新兴借贷平台在购买数据防欺诈、降风险方面耗费了太多成本。 又由于市场数据分散,互金公司在购买数据时,往往批量购买,后由互金公司整合构成自己的一个征信数据来源。

“去年国家安全法以及两高的司法解释出台后,倒卖倒买个人数据现象得到了一定的缓解。”刘新海称。

《中华人民共和国网络安全法》作为我国网络领域的基础性法律,明确加强对个人信息保护,打击网络诈骗,重拳整治行业乱象。法律规定任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息,并规定了相应法律责任。

在爬虫技术方面,刘新海认为,爬虫技术之所以在互联网金融行业应用普遍,主要是源于P2P等互联网金融公司急需对借款人做信用评估,以防止欺诈行为。

“网络爬虫是互金平台获取借贷人信息数据的一种技术,但这种行为有时并不合规,例如现金贷行业出现一种‘同业爬虫’产品,可以直接将其他现金贷平台的放款额和风控数据爬出来,相当于其他的平台帮助你做了风控。”

刘新海表示,真正的风控技术需要投入人与时间,需要付出一定的代价买教训。从目前来看,很多公司都表示已加大投研力度,提升风控水平,但其实从行业、技术角度出发来看,互金行业的风控技术总体来说还比较落后,主要问题是消费金融服务需求太过迫切。

“只要公司做好营销,解决欺诈及获客问题,就可以挣钱,那么为什么还要花大量时间去做风控呢?这是行业矛盾的地方。根据互金行业的实际情况,过去一段时间,风控对于互金公司(特别是现金贷公司)的盈利能力而言并没有起到关键作用。”

用技术助推征信体系建设

征信体系与技术联系非常紧密,在大数据、人工智能技术迅猛发展的背景下,如何将用技术助推征信体系的建设,也是目前我国征信市场面对的一个挑战。

根据刘新海介绍,征信对我国而言本来就是“舶来品”,并且市场化公司参与多、发展渠道多。欧美发达国家是征信基础设施和金融体系循序渐进、同步发展,而我国则是经济发展倒逼征信体系发展,是跨越式发展。另一方面,单一的征信模式已无法满足消费经济活跃、需求旺盛的市场现状,因此需要通过其他的渠道来解决这个需求,所以一些市场化的互联网公司、大数据公司也想参与征信体系的基础设施建设。

相比移动支付,互联网时代的个人信用体系建设将给市场经济带来更深变革。对于互联网巨头而言,个人信用体系的建设可以成为一个新的经济形态的入口,在此背景下一些互联网公司纷纷推出信用分业务。巨头参与征信基础设施建设,如何在过程中保证公平正义、保护消费者隐私,是征信体系建设过程的一个重要的问题。

2月22日,央行下发了首张个人征信牌照,百行征信有限公司申请设立个人征信机构已获得许可,个人征信牌照有效期为3年。这一平台成立的主要目的,是把央行征信中心未能覆盖到的个人客户信用数据纳入,构建一个国家级的基础数据库,实现行业的信息共享,以有效降低风险成本。

此前,唯品金融副总经理汤磊对第一财经记者表示,目前整个行业发展过程中存在的突出问题,首先是信息的碎片化,出现“信息孤岛”,各家机构均把信息看成自己的核心资产,不愿拿出来共享或拿出来共享的信息数据失真,导致个人多头借贷、过度借贷、骗贷等行为不断出现;第二,随着大数据征信的概念炒得比较热,存在利用个人征信之名,过度采集或未经授权采集个人信息的情况。

百行征信的设立或许能够有效解决消费金融领域的数据孤岛问题,也能清理数据买卖的乱象。但业内对于“老八家”入股百行征信之后是否愿意共享数据存疑。那么,如何打造一个有效打破数据壁垒的信息共享平台?

“我认为互金协会的信用信息共享平台将成为百行征信未来主要的征信数据来源。百行征信最后也许不需要8家征信公司的数据,因为有的数据它们不想拿,也拿不出来。”一位接近央行人士此前对第一财经记者表示。

他指出,征信数据是有囊括标准的,在一定维度内的数据将被纳入征信数据。例如,个人的信贷历史,征信数据需要匹配到每个人,需要个人的标识信息,需要一个清晰的边界。但此前央行批复的“筹备成立”个人征信业务的8家机构,由于数据维度太广,并没有局限于传统的征信数据维度。因此,一旦按照征信数据标准收窄维度,会影响机构的金融生态体系。

从技术的角度来看,区块链技术或许可以解决机构间不信任的问题。中国信息通信研究院云计算与大数据研究所主任韩涵表示:“信用领域是区块链的应用场景之一,用区块链共享信息,一方面信息共享透明,机构之间可相互看到彼此都共享了哪些信息,比较放心;另一方面,通过区块链的技术来精准地记录你所共享的信用,把市场本身进行记账,同时设置不同的激励机制和运营模式,来实现信息的共享。”

另外,在防止数据泄漏方面,刘新海认为,区块链分布式、多约束的特点对于黑客来说挑战比较大。“身份信息用区块链存储是分布式的,系统的安全性会加强。同时,由于所有行为都在链上体现,对数据质量、真实性也有了保证。区块链技术可能是未来新一代征信系统的底层架构的一种选择。”但他同时指出,如何提高对海量征信数据的处理效率,也是区块链技术在实际应用中存在的一个问题。


原文发布时间为:2018-04-02

本文作者:36氪的朋友们

本文来源:36Kr,如需转载请联系原作者。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
大数据
【赵渝强老师】大数据主从架构的单点故障
大数据体系架构中,核心组件采用主从架构,存在单点故障问题。为提高系统可用性,需实现高可用(HA)架构,通常借助ZooKeeper来实现。ZooKeeper提供配置维护、分布式同步等功能,确保集群稳定运行。下图展示了基于ZooKeeper的HDFS HA架构。
|
4月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
293 1
|
4月前
|
存储 分布式计算 大数据
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
90 3
|
2月前
|
存储 SQL 分布式计算
大数据时代的引擎:大数据架构随记
大数据架构通常分为四层:数据采集层、数据存储层、数据计算层和数据应用层。数据采集层负责从各种源采集、清洗和转换数据,常用技术包括Flume、Sqoop和Logstash+Filebeat。数据存储层管理数据的持久性和组织,常用技术有Hadoop HDFS、HBase和Elasticsearch。数据计算层处理大规模数据集,支持离线和在线计算,如Spark SQL、Flink等。数据应用层将结果可视化或提供给第三方应用,常用工具为Tableau、Zeppelin和Superset。
654 8
|
3月前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
399 3
【赵渝强老师】基于大数据组件的平台架构
|
2月前
|
存储 负载均衡 监控
揭秘 Elasticsearch 集群架构,解锁大数据处理神器
Elasticsearch 是一个强大的分布式搜索和分析引擎,广泛应用于大数据处理、实时搜索和分析。本文深入探讨了 Elasticsearch 集群的架构和特性,包括高可用性和负载均衡,以及主节点、数据节点、协调节点和 Ingest 节点的角色和功能。
74 0
|
4月前
|
SQL 存储 分布式计算
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
67 9
|
4月前
|
存储 分布式计算 druid
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
108 3
|
4月前
|
消息中间件 分布式计算 druid
大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进
大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进
121 2
|
4月前
|
存储 消息中间件 druid
大数据-150 Apache Druid 安装部署 单机启动 系统架构
大数据-150 Apache Druid 安装部署 单机启动 系统架构
72 1