大数据技术在商业银行中的应用:场景、优势与对策

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

近日,中国人民银行成立金融科技(FinTech)委员会,旨在加强金融科技工作的研究规划和统筹协调。随着金融科技在业务层面渗透率的逐步提升,大数据技术在金融机构中的应用日益广阔,对于商业银行如何在金融科技时代使用、提取、管理好大数据的讨论也更加深入。

一、大数据技术在银行业中应用的前景

20世纪以来,信息技术在金融业中的大量广泛使用,使其累积了体量庞大的数据和信息,金融机构当中存储着数以万计的数据,这种情况迫使金融机构必须要考虑如何将这些数据转换为可以创造实际价值的内容,为企业尽可能多的创造利润。然而,这些数据并不是为了分析目的而专门生产,仅仅是随商业活动产生,尽管数量庞大,但难于直接产生价值,因此需要借助大数据挖掘技术进行深度挖掘,使之成为有价值的信息。随着数据收集能力逐步提高,金融企业将形成时间连续、动态变化的面板数据,其中不仅包括用户的交易数据,也包括用户的行为数据。简单的数据搜集和归并对金融企业来说不足以有效利用这些数据,只有对其进行深度挖掘,才可以发现其中的隐性信息并利用其为客户提供更加优质的金融产品和服务。如何对多源数据实现快速高效的海量数据处理?如何应对互联网金融产生的碎片化数据、快速响应需求引发的风险问题?如何充分利用数据分析、挖掘来获取更大的经济效益?是金融企业在进行大数据分析时面对的几大挑战。

互联网的发展催生了大数据技术的诞生。在21世纪初,全球网页内容大规模增长,网页内容每日增长速度超百万。截止2001年末,全世界网页个数达50亿个[1],互联网用户检索有用信息的难度越来越大。谷歌(GOOGLE)等拥有较高搜索引擎技术的公司开始建立搜索系统,其内容覆盖数十亿网页,提高了人们对互联网内容的使用效率,大数据技术由此诞生。由于网页内容当中需要处理的数据包含大量的非结构化内容,传统的搜索技术无法完成检索。谷歌公司提出了以“分布式”为基础的存储和检索系统,包括分布式文件、分布式并行计算和分布式数据库等系统,实现了非结构化数据的检索,并奠定了大数据技术的基础。伴随着互联网产业的崛起,这种创新的海量数据处理技术在电子商务、定向广告、智能推荐、社交网络等方面得到应用,取得巨大的商业成功。这启发全社会开始重新审视数据的巨大价值,金融、电信等拥有大量数据的行业也开始尝试这种新的理念和技术,取得初步成效。与此同时,业界也在不断对谷歌提出的技术体系进行扩展,使之能在更多的场景下使用。2011 年,麦肯锡、世界经济论坛等知名机构对这种数据驱动的创新进行了研究总结,随即兴起了一股大数据热潮。

虽然大数据已经成为全社会热议的话题,但到目前为止,“大数据”尚无公认的统一定义。笔者认为,认识大数据,要把握“资源、技术、应用”三个层次。大数据是具有体量大、结构多样、时效强等特征的数据;处理大数据需采用新型计算架构和智能算法等新技术;大数据的应用强调以新的理念应用于辅助决策、发现新的知识,更强调在线闭环的业务流程优化。因此说,大数据不仅“大”,而且“新”,是新资源、新工具和新应用的综合体。

现代金融机构当中,数据资产成为其区别于传统金融机构的最大生产要素之一。对于数据资产的管理、运用、挖掘,成为现代银行业加快创新、增强管理能力等业务的最重要工作。大数据挖掘分析决策的主要流程见下图1。银行业海量的数据内容,需要从“数据清理/整合——>数据仓库——>数据选择——>数据挖掘——>模式评价——>知识”多次的循环反复,才有可能达到预期的效果。

银行业监管机构对于数据管理和监测的要求也在不断提高,金融监管部门在多个指导文件中指出[2]“加快银行信息资源的集中,实现数据视图在全行范围的共享,充分利用数据仓库和数据挖掘技术,实现资产负债管理、财务绩效管理、风险管理和客户关系管理等主题应用,建立面向主题、面向市场、面向决策、满足内部管理及外部政策要求的银行管理信息系统建设”。“大中型银行要把数据治理作为重要的制度性建设与基础性工作,加强组织保障、制度保障与流程保障,有序推进、重点强化;统一数据标准,提高数据质量,深化数据应用,有效支撑银行业务发展,有效提升银行管理水平[3]。” “十二五”末期,大部分银行均开始着力解决数据质量较差的问题,开始加强数据管理、管控,提高数据信息质量,采用数据挖掘和大数据技术深层利用、提炼数据以提升经营管控效能。

大数据技术的产生本身就有其强烈的应用需求背景,它从一开始就是面向应用的。数据挖掘技术在决策支持方面有着广泛的市场前景,并可用于业务管理方应用,是实现CRM和BI的重要技术手段之一。具体涉及商业化应用的有数据挖掘技术中的数据库营销(Database Marketing)、客户群体划分(CustomerSegmentation& Classification)、背景分析(ProfileAnalysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失分析(ChurnAnalysis)、客户信用评分(Credit Scoring)、甄别(Fraud Detection)等应用手段。目前,诸多商业领域(银行、保险、证券、超级市场、电信等)均有大数据技术成功应用的案例。在金融机构中,由于其除了提供储蓄、投资和信用卡业务之外,保险、股票、基金投资等也是其重要业务。因此,大数据技术和数据挖掘技术在金融业中的主要运用有:1.数据分析和设计构造的数据仓库;2.特征数据变量选择、关联属性相关数据用于预测客户信用状况;3.聚类、分类分析识别目标客户和市场;4.数据可视化过程及归并、聚类分析甄别洗钱等金融犯罪行为。

将大数据技术应用于金融业不仅是技术发展的需要,也是金融业提高自身盈利能力的需要。在当前“以客户为中心、以市场为导向”的激烈竞争时代,在各大金融机构准备“二次转型”的改革进程中,要想提高核心竞争能力、防范业务风险、提高业务分析数据的时效性及准确性,就必须懂得如何利用现代管理信息系统进行综合分析,挖掘客户的潜在价值,利用有价值的信息改进服务手段,运用数据挖掘技术实现职能化的决策支持功能管理。一直以来,金融行业对数据的重视程度非常高。随着移动互联网发展,各种金融业务和服务的多样化和金融市场的整体规模扩大。对于大数据带来的主要业务价值,参加调研的金融企业表示,大数据的价值是他们可以根据商业分析实现更加智能的业务决策,让决策的制定更加理性化和有根据。依靠有前瞻性的决策,实现生产过程中资源更优化的分配,能够根据市场变化迅速做出调整,提高用户体验以及资金周转率,从而获取更高的利润。

二、大数据技术在银行业中的主要应用场景

(一)大数据时代下银行的精准营销

按照单个客户个性化的营销方案和沟通服务体系,金融机构依照信息化技术手段可以建立起精确的营销方案以实现对个人客户的精准营销(Precision Marketing)。这种建立在精准定位基础之上的营销活动,包含着对个体的关注和差异化的认同,可以最大限度地摊平企业的成本。精准营销对于每一位金融客户的兴趣、爱好、购买能力均可以做出预测和判断,根据综合化的评分向顾客推荐金融服务及产品,以保障推荐产品在其财力范围和兴趣半径之内。精准营销的基本理念如图2所示:

传统银行业当中,认识产品、产生兴趣、付款购买三个环节是金融消费者在购买过程当中必然出现的环节。由于在认知产品的过程当中,消费者会通过网络、私人渠道进行检索,对产品信息、类别进行了解以确定其购买信息,在此过程当中产生的搜索数据便可以定位消费者的收入水平、兴趣和爱好,企业借助分布式存储和云计算深度挖掘这一系列关于该类消费者的信息,形成完整的客户关系系统(CRM系统),从而设计出各种序列的营销方案,推送给消费者,实现精准化营销[5]。

(二)大数据时代下银行的精细化管理

大宗交易数据是传统银行最为重视的业务内容,由于受制于银行较弱的数据处理能力,体量庞大、细节更多的精细化交易数据无法得到有效处理。例如,传统银行经营模式之下,商业银行仅能记录每次的银行卡消费信息,却无法实现实时的消费信息反馈,归集整理;在存款、贷款风险管控过程当中,银行也对于对小额贷款实施有效的风险管控。一般的商业银行在记录了客户消费和挑选产品的数据后,亦没有利用好这些并不是为商业银行经营活动(风控、催收)而产生的数据。顾客的每笔投资和消费都被记录分析之后,运用数据挖掘技术将产生信息化决策,有助于提升用户体验,精细化管理水平将不断提高。

(三)大数据时代银行的低成本管理

传统银行业中的信息数据是手工化产生的,容易产生错误。特别是在信贷活动过程当中,对于银行客户信息在记录过程中产生的错误将会给银行经营的有效性造成损失,这种传统的手工信息处理方式效率低下、准确度差、成本高。在商业银行的贷款业务当中,银行需要对客户的个人信息、财务状况和抵押品等内容进行尽职调查,信息获取的成本较高。但在大数据时代,商业银行对客户信息的采录过程完全自动,通过客户自填、自报,收录客户的个人信息,从而更加精确地了解到客户的实际情况,降低人工处理成本,提高办事效率。对于个体、小微层面的关注将有效解决长期以来困扰中国企业的“小微融资难”问题。

(四)大数据时代的集中化管理

商业银行的传统业务模式当中,跨地区、跨国经营成本极高,商业银行不仅要承担开设实体机构的成本,还要承担与代理行之间产生的摩擦经营成本。在大数据技术的帮助之下,商业银行总部机构将可以更加便捷地获取更多有价值的信息,不仅局限于当地的分支机构,跨越了地域、时空限制。对各个条线的集约化管理,使得银行总部的经营权利更加集中,分支行的执行功能将被强化,银行管理职责、风控策略将被集中于总行层面,有助于进一步提高机构总体执行力,避免上传下达过程当中的摩擦成本。

三、大数据技术在银行业应用中的主要优势与难题

经济社会的三个重要组成要素:产品、信息、资金渗透于互联网时代的诸多环节,互联网时代的激烈竞争当中,电商、银行、物流三大类别企业代表着三种要素的重要占有者,三者都希望成为主宰着三种要素的利益获得者。虽然在互联网技术、平台层面商业银行有所落后,但从长期发展趋势来看,商业银行具有重要的优势同时也存在着诸多困难,主要包括以下几个方面:

(一)商业银行的信息与人才优势

商业银行不仅掌握着大量资金,而且在信息搜集方面也拥有独特优势,不管是甄别优、劣客户进行授信贷款,还是金融服务用户交易活动留下的交易痕迹都是其重要数据资产。尤其是商业银行的信息化建设也居于各行业前列,信息处理与建设已经根植入商业银行的“思维”。商业银行不仅有信息化建设的意愿,而且具备建设优质信息化系统的条件。特别是在2000年之后,中国的商业银行提出建立数据集市的思路。各大商业银行纷纷建立了数据中心和备份中心,提高了数据的存储利用效率和风险防控能力。另外,由于在贷款和金融业务开办之前,各自然人都需要在商业银行开户并填写个人基本信息,社会上的资金划转要以商业银行为媒介,因此商业银行有着广泛的渠道获取客户信息和资金流信息,同时POS机和ATM也可以获取个人的消费信息。多年的积累,使商业银行已形成海量的信息数据库,其结构化程度优于电商等企业。

中国的商业银行均设有科技开发中心、数据测试和收集中心以便于商业银行开发拥有自主知识产权的个性化业务、功能。在二十世纪初提出的建立数据集中项目过程当中,商业银行累积了大量建设复杂数据信息系统的经验,涉及软件开发、数据仓储等具体实操项目,这些项目锻炼了商业银行的科技开发队伍,为商业银行积累了许多软件开发、管理人才。金融人才和信息科技人才的结合是商业银行构建有效物流、信息流的重要基础保障。

(二)商业银行的资金与制度优势

商业银行的利润率普遍较高,近几年来的业绩增长较快,许多商业银行的盈利能力开始超过国外商业银行。因此,商业银行内部拥有充足的资金,有利于商业银行建立大规模的资金、物流、信息流操作系统。资金优势使商业银行在构建三网融合过程当中可以建立先进的数据操作系统、存储系统和计算系统,有利于大数据技术的发展和应用。

中国的商业银行一方面自负盈亏,另一方面与政策存在着千丝万缕的联系。我国的商业银行牌照较难获得,电商和物流商的资格相对都比较简单。我国大型商业银行已基本实现集团化经营,全国十五家上市银行资产占到中国商业银行总资产的60%以上,其经营管理经验、理念、方式、方法都强于电商和物流企业,容易形成跨界、跨区域经营。

(二)商业银行大数据应用的难题

在利用大数据帮助商业银行进行问题解决的同时,信贷客户个人信息保护、隐私保护的边际在哪里,客户的哪些数据可以收集,可以通过什么样的方式收集?个人数据是不是可以全部收集,收集在一起引起的副作用也要考虑。例如:美国有法律规范禁止教育部门的数据与移民局数据联通,移民局不得利用教育部门数据来查获非法移民,目的是为了防止这些移民由于害怕移民局而不将儿童送去上学,如果存在大量的失学青年可能会对美国社会的安定和未来不利。

哪些数据可以收集?是否可以追踪公司高管个人的信息?这些问题均涉及到道德与法律层次的重要问题。数据资产的合理利用也需规范,数据结果能用于哪些方面,是否会违背非歧视原则?在证券交易与商业银行数据应用过程中必然涉及到方方面面的内容亟待解决。另外更大规模的数字化对于资本市场、信贷市场的长远影响究竟如何?对各种参与者都是公平的吗?对于商业银行的存在本质是有益的吗?

以上种种问题,只是冰山一角,大数据对社会、对金融、对个人的影响还需细致分析和推演,需制定在金融领域的数据收集、数据分析和利用规则,制定底线。

四、大数据技术在银行业应用中的对策建议

商业银行应当继续使用大数据和数据挖掘技术及时、准确、全面地掌握自身资产质量、数量及分布、头寸调度、信贷情况,提供给客户安全、可靠及强有力的技术支撑。数据仓库、大数据、数据集市通过深度挖掘可以获得“深度效益”;同时,大数据技术还搜集了大量的商户、用户资料,可以为开发新的产品、业务及综合化服务,让银行在不同的平台、层面上为用户提供异质化业务变得更加容易,而且为商业银行的经营管理决策提供了支持与依据,让商业银行可以随时根据与自已有历史经验往来的商户数据信息推断出客户的信用状况,有助于银行风险的防范。

随着各种新技术的发展,大数据与数据挖掘技术也随研究的深入而不断进步,以后将更加便捷、有效地应用于未来的实践当中去,结合新的理论、技术和模型评价方法,以增加数据挖掘的有效性,进一步提高数据分析工具的实用性。数据挖掘在未来商业银行中的研究焦点和需要进一步开展的工作在于以下几个方面。

(一)完善商业银行信息系统总体架构设计

传统商业银行的数据应用信息系统搜集与保存系统在大数据应用环境背景下仍需进一步完善,本文根据商业银行大数据的业务基本需求和监部部门的监管要求,结合我国金融机构当前的实际情况,采用企业级分层架构思想,构建出如图3所示的金融机构大数据信息系统体系架构图:

该大数据系统体系结构的特点包括:①层次化清晰。系统共分为应用层、服务层、网络层和数据层,在系统体系结构中,每层将具有相同服务功能的部分封装在一起,相邻层之间调用服务;②在传统三层网络体系结构的基础上,该体系结构加入了网络层,通过金融机构专用网络将服务层和数据层相连接,并设置了防火墙,充分保证金融机构业务数据的安全性;③各个商业金融机构可以通过金融机构专用网络共享数据库信息,同时各监管部门与业务条线可以实时查看银行经营业务数据,提高业务开展效率与监管可行性。

(二)加强数据挖掘应用系统和算法测试的研究

不断重视数据挖掘技术的实际应用。尽管国内关于大数据技术和数据挖掘理论对算法模型的研究较多,但实际应用案例和算法应用改进案例却比较少,缺乏可以借鉴的经验数据。如何引入国外的先进经验、技术,改进算法的性能并进行有效性测试,检验算法合理性和功能系统的稳定性?结合多种数据挖掘算法实现,提高数据挖掘的效率和技术功效仍是亟待解决的问题。

(三)加强传统数据与非结构化数据挖掘过程中的可视化方法的研究

加强人机交互,可以把用户需要解决的问题方便地转化为数据挖掘技术人员能够理解并解决的问题,然后将结果以更直接的表现形式被用户理解。完善解释机制,将各种算法的研究趋向于简单化和易于理解。

从多媒体数据库中发现有意义的模式,包括对文本数据、图形数据、音频数据以及超文本数据的挖掘等。基于内容的检索和相似度搜索、概化和多维分析、分类和预测分析对复杂数据进行挖掘,使数据挖掘技术发展的整体趋势由处理简单的挖掘问题逐步到解决复杂的挖掘问题。

(四)加强对数据挖掘结果的有效性研究

用科学的方法加以评估。目前许多算法所花费的时间很短,但其挖掘结果的数据却远远超出了可理解的范围。随着信息技术的高速发展,今后的算法研究需要集中在挖掘结果的有效性上,便于用户快速得到自己所需要的、有价值的信息。包括对算法的动态维护、基于约束的挖掘算法和提高算法的可伸缩性等都将是主要的研究方向。



本文转自d1net(转载)

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
23天前
|
数据采集 数据可视化 大数据
Python在大数据处理中的应用实践
Python在大数据处理中扮演重要角色,借助`requests`和`BeautifulSoup`抓取数据,`pandas`进行清洗预处理,面对大规模数据时,`Dask`提供分布式处理能力,而`matplotlib`和`seaborn`则助力数据可视化。通过这些工具,数据工程师和科学家能高效地管理、分析和展示海量数据。
59 4
|
10天前
|
分布式计算 大数据 Spark
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
《Spark大数据处理:技术、应用与性能优化》深入浅出介绍Spark核心,涵盖部署、实战与性能调优,适合初学者。作者基于微软和IBM经验,解析Spark工作机制,探讨BDAS生态,提供实践案例,助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)
26 1
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
|
18天前
|
搜索推荐 安全 大数据
大数据在医疗领域的应用与前景
【6月更文挑战第26天】大数据在医疗领域提升服务效率,助力疾病预防与精准治疗。电子病历优化数据管理,疾病预测预防个性化医疗成为可能。未来,智能医疗系统普及,远程医疗兴起,数据共享促进行业发展,同时隐私保护与安全备受关注。大数据正重塑医疗,开启健康新篇章。
|
19天前
|
SQL 运维 druid
深度分析:Apache Doris及其在大数据处理中的应用
Apache Doris是一款开源的高性能实时分析数据库,设计用于低延迟SQL查询和实时数据处理,适合大规模实时分析场景。与Apache Druid、ClickHouse和Greenplum相比,Doris在易用性和实时性上有优势,但其他产品在特定领域如高吞吐、SQL支持或数据处理有特长。选型要考虑查询性能、实时性、SQL需求和运维成本。Doris适用于实时数据分析、BI报表、数据中台和物联网数据处理。使用时注意资源配置、数据模型设计、监控调优和导入策略。
|
13天前
|
存储 SQL 分布式计算
MaxCompute的优势
【7月更文挑战第1天】MaxCompute的优势
15 0
|
13天前
|
运维 监控 Java
在大数据场景下,Elasticsearch作为分布式搜索与分析引擎,因其扩展性和易用性成为全文检索首选。
【7月更文挑战第1天】在大数据场景下,Elasticsearch作为分布式搜索与分析引擎,因其扩展性和易用性成为全文检索首选。本文讲解如何在Java中集成Elasticsearch,包括安装配置、使用RestHighLevelClient连接、创建索引和文档操作,以及全文检索查询。此外,还涉及高级查询、性能优化和故障排查,帮助开发者高效处理非结构化数据。
26 0
|
19天前
|
消息中间件 存储 大数据
深度分析:Apache Kafka及其在大数据处理中的应用
Apache Kafka是高吞吐、低延迟的分布式流处理平台,常用于实时数据流、日志收集和事件驱动架构。与RabbitMQ(吞吐量有限)、Pulsar(多租户支持但生态系统小)和Amazon Kinesis(托管服务,成本高)对比,Kafka在高吞吐和持久化上有优势。适用场景包括实时处理、数据集成、日志收集和消息传递。选型需考虑吞吐延迟、持久化、协议支持等因素,使用时注意资源配置、数据管理、监控及安全性。
|
19天前
|
消息中间件 分布式计算 Kafka
深度分析:Apache Flink及其在大数据处理中的应用
Apache Flink是低延迟、高吞吐量的流处理框架,以其状态管理和事件时间处理能力脱颖而出。与Apache Spark Streaming相比,Flink在实时性上更强,但Spark生态系统更丰富。Apache Storm在低延迟上有优势,而Kafka Streams适合轻量级流处理。选型考虑延迟、状态管理、生态系统和运维成本。Flink适用于实时数据分析、复杂事件处理等场景,使用时注意资源配置、状态管理和窗口操作的优化。
|
6天前
|
数据采集 自然语言处理 大数据
​「Python大数据」词频数据渲染词云图导出HTML
使用Python,本文展示数据聚类和办公自动化,焦点在于通过jieba分词处理VOC数据,构建词云图并以HTML保存。`wordCloud.py`脚本中,借助pyecharts生成词云,如图所示,关键词如"Python"、"词云"等。示例代码创建了词云图实例,添加词频数据,并输出到"wordCloud.html"。
16 1
​「Python大数据」词频数据渲染词云图导出HTML
|
16天前
|
存储 人工智能 OLAP
深度|大模型时代下,基于湖仓一体的数据智能新范式
本次文根据峰会演讲内容整理:分享在大模型时代基于湖仓一体的数据产品演进,以及我们观察到的一些智能开发相关的新范式。