商业银行如何玩转大数据?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

“大数据(Big Data)”的概念在过去几年里引起了各个行业的充分关注。以信息处理能力作为核心竞争力之一的商业银行,如能引入大数据的理念和相关技术,将有效提升自身的信息化水平,促进信息化银行的建设和发展。

因此,有必要基于商业银行经营特点和现有IT架构,对“大数据”的概念加以分析和探讨。

本文以商业银行的视角,从大数据的核心思想、数据特点、技术要领、实施要点四个方面切入,以六组问答的形式对商业银行大数据相关的思想、概念、方法、对策等进行辨析和讨论。

大数据的核心在于“大”吗?

体量大、维度高、形态多、价值高但密度低是公认的大数据四大特点(即大数据的“4V”定义)。需要指出的是,这四大特点的概括,是出于理论研究的需要,对“数据”本身特点进行的概括。

而对于商业银行的业务应用而言,则应从具体效用的角度来理解大数据思想及技术。

大数据之于商业银行,在于对既有数据分析系统的升级,显著提升数据分析和商业决策的效率。

大数据的思想追求数据在商业决策中的“无处不在”,讲求数据分析与具体业务的紧密衔接。

从商业智能(BusinessIntelligence, BI)的角度来看,大数据技术是原有BI的升级,将传统的“具体业务—商业数据—BI分析—报表—决策—具体业务”的BI流程进行了再造,压缩了整个流程的信息链条,同时提升了链条各个环节及整体的运转效率。

大数据之于商业银行,在于提供了一种有效的手段,提高商业银行对客户的理解与认知能力。

大数据技术支持商业银行对大量日志数据进行统计和建模,从而了解客户的行为习惯、风险偏好、健康情况、消费能力、渠道喜好、信用状况及人口统计学等多方面的信息,进而为客户“贴标签”、“画像”;亦可整合多种信息反馈渠道的数据,帮助商业银行实时关注、理解客户的真正业务需求。

大数据之于商业银行,在于能够低成本、批量地实现较高水准的个性化客户服务,增加客户粘性。

如能有效地将大数据分析系统与移动互联网技术、线上线下一体化服务体系进行紧密融合,就可为商业银行的客户提供“千人千面”的个性化服务。

例如,对于低净值长尾客户,可用较低的成本,批量化地通过电子渠道提供随身的知心服务,提高产品和服务的覆盖率;对于高净值客户,提供“客户经理+电子渠道”的随身贴心服务,提升客户的业务贡献。

可见,从具体效用的角度来看,衡量一个商业银行是否真正应用了大数据、发挥了大数据的价值,就是要看其大数据系统是否能够显著提升数据分析和商业决策的效率,是否能够提高对客户的理解与认知能力,是否能够低成本、批量地实现较高水准的个性化客户服务。

如果商业银行的大数据系统未能实现上述效用,那就需要认真审视自身的大数据战略并加以调整。

大数据就是外部数据吗?

在国内,以阿里、腾讯、百度为代表的互联网企业,以各自的核心业务(例如,阿里的电子商务、腾讯的社交娱乐、百度的网络搜索)为切入点,通过并购、自主开发等方式,不断推出种类繁多的网络服务,在网络空间中搭建了“全业务”的数据平台,收集了海量的客户数据,并以此为基础开发出了一系列客户征信、消费贷款、网络保险等大数据产品,向商业银行的相关产品提出挑战。

与上述互联网企业相比,商业银行在网络空间中缺少类似的“全业务”平台,因此短期内难以依靠自身的电子渠道获取类似的客户信息。对此,商业银行是否应该将大数据的战略重点放在从自身体系之外获取客户数据呢?应从以下三个角度进行分析。

数据价值的角度。京东白条、天猫分期、阿里小贷、支付宝运费险、百分点个人征信、金电联行“企业客观信用”等业务的成功实践已经验证了互联网客户大数据在维度、粒度、活性方面的优势和价值,如果这些数据能与商业银行的既有数据进行融合分析,将有望获得更加精准的数据分析结果。

自身大数据体系的建设。一方面,应以内部数据为重点,做好自身既有数据的价值深钻和分析架构的大数据改造,而不应以引入外部数据作为大数据发展的战略重点;另一方面,要放开眼界,积极引入外部数据,增强商业银行与互联网企业IT架构方面的交流,以期加快自身大数据体系的建设进度,提升其兼容性与可用性。

数据交换的合规性。客户在使用互联网服务期的行为信息、购物记录、健康信息等数据理应属于隐私数据,客户在注册期间签署的网络服务协议是否能够有效支持互联网企业采集、商用并交换,尚属法律空白。因此,商业银行在引进外部数据之前,应首先做好合规工作。

可见,对于商业银行而言,合规合理地引入外部数据,有助于提升自身数据的多样性、细化数据粒度,并可通过数据交换提升自身大数据体系的兼容性与可用性。

但是也应充分认识到,商业银行多年积累的业务数据的价值还远未完全发挥,尚待深钻、分析和应用,应将基于内部数据的分析应用作为当前自建大数据能力的核心;与此同时,也要及时开展预研预估,做好外部数据交换的合规准备工作,为“内外兼修”的大数据平台建设做好准备。

大数据是否等同于非结构化数据?

“非结构化数据”是在大数据的“4V”定义中作为数据多样性的一个典型例子而被提出的,因此受到了普遍关注,在众多关于大数据的文献中,“非结构化数据”也占据着比较重要的地位。

那么,商业银行是否也应将“非结构化数据”的处理作为现阶段自建大数据体系的重点?

对于这一问题,要结合“非结构化数据”的特性进行分析。非结构化数据的本质特性是所包含信息的丰富、复杂程度远远高于结构化数据。典型的“非结构化数据”包括文本、音乐、语音、图像、视频等类型的数据,这些数据所包含的信息极其丰富,不能使用数据表进行无损耗转化。

因此,非结构化数据无法使用数据表或者类似的结构化的方式进行无损转化,所以只能以数据包、文件集的方式进行存储,也无法使用与结构化数据相同的数据分析方法进行统计、分析、建模,往往需要通过专门设计的预处理算法将其转化为结构化数据。

这就增加了数据管理和分析的难度,也提高了对数据存储、计算资源的需求。对于非结构化数据的分析,至今仍是学术界的研究热点,在学术领域尚属“进行时”,在商用领域的应用则更是凤毛麟角。

可见,现阶段自建大数据体系,对于非结构化数据应按照“量体裁衣”的原则,根据自身IT架构的存储、计算资源和技术人员投入分步实施。

对于资源紧张的商业银行,可采取“存储—外购预处理模块—自行研发”三步走的路径积累非结构化数据的分析能力。

对于资源较丰富的商业银行,则可按照“预研一批、实用一批、储备一批”的策略,采用“外购预处理模块+产学研合作+自行研发”的方式进行尝试,紧跟技术前沿,适时引入成熟的非结构化处理技术,但也应注意资源配比,不应将非结构化数据作为现阶段自建大数据体系的重点。

大数据等同于数据仓库吗?

如前所述,商业银行是否具备大数据能力,应依据数据及数据分析系统所发挥的具体效用来判断。

以“显著提升数据分析和商业决策的效率”,“显著提高对客户的理解与认知能力”,“低成本、批量地实现较高水准的个性化客户服务”三条标准来衡量,目前商业银行数据仓库建设还需在以下几个方面加以强化。

建设异构的数据仓库平台。

多年来,商业银行的数据仓库以存储业务、交易数据为主,因此采购了存储成本较高的专业数据仓库服务,数据在进入仓库之前的ETL规则相对比较严格,并采用了“时间换空间”的策略进行主题拆分以节约存储空间。

这就导致在执行诸如交易链恢复、交易场景还原等分析任务时消耗较高的计算资源,降低整体的分析效率。

与用户行为数据紧密相关的日志数据,具有典型的“数据量大、频度高但价值密度低”的特点,可针对这一需求,搭建低成本的PC集群、内存数据库等,与既有的数据仓库融合起来,构成对数据源和分析端透明的异构数据仓库,提高其响应速度和处理能力。

搭建业务指标提取逻辑的共享平台。

目前商业银行基础数据的标准化工作已经取得了长足的进展,但在实际应用中,尚存在“业务逻辑信息孤岛”现象(即由于缺乏一个共享平台,而造成不同的分析师之间无法互通业务指标的提取逻辑,每个分析师、每个数据分析部门就形成了一座座孤岛)。

这一现象不仅造成业务指标“多态”问题,也诱发了数据仓库访问请求的重复提交,影响数据分析的效率和准确性,因此需尽快搭建权限控制合理的业务指标提取逻辑分享平台,解决“业务逻辑信息孤岛”问题。

建立由信息治理部门主导、以业务部门为中心的大数据创新立项机制。大数据应用要求尽量压缩数据分析业务链条,进一步提高具体业务与数据分析环节结合的紧密程度。

对此,可以探索建立由信息治理部门主导、以业务部门为中心的大数据创新立项机制。

简言之,就是将数据分析师融入具体业务部门,由数据分析师和具体业务部门共同发起大数据应用的创新项目立项,经信息治理部门审批后,给予相应的计算资源,并依据数据应用项目在具体业务中产生的效果进行评估和激励。

大数据只需要Hadoop平台吗?

Apache 软件基金会(ASF)旗下的海杜普(Hadoop)开源项目对于大数据应用无疑有着巨大的推动作用,基于Hadoop的HDFS系统也是目前主流大数据平台的重要基础设施,那么是不是有了Hadoop平台,商业银行就拥有了大数据处理能力了呢?

首先,从软硬件平台的完备性来看,还需持续投入,配置更多的软件模块,以提升大数据分析平台的能力。

Hadoop只是大数据分析平台的基础设施,除了基于Hadoop及Yarn的Hive、HBase、Pig、Storm之外,mahout、Hadoop-R、Hadoop-weka等数据分析、数据挖掘套件对于大数据分析也是必不可少的,另外速度更快、性能更高的Spark体系也在互联网企业获得了成功的应用,值得商业银行关注和借鉴。

其次,从数据的来源来看,还需改造前端,以获取更多维度、更高频次、更细粒度的数据。

商业银行的数据分析系统长期以来重视业务数据的存储,而对于系统运行状态的日志、客户个人信息的收集并不重视,而这些信息恰恰是大数据分析得以理解客户、排查业务问题的关键所在。

因此,商业银行需要系统性地进行应用前端改造,借鉴互联网企业、电商企业的做法,设法获取更多维度、更高频次、更细粒度的数据,更好地满足大数据分析对数据源的需求。

最后,从项目的执行过程来看,还须形成“数据分析+业务应用”的数据分析模式,以迭代方式优化分析结果和具体业务。

传统的BI模式下,数据分析的业务流程可以概括为:接受业务部门提出的分析需求=>数据分析=>形成报告。

而大数据分析的很多项目需要数据分析师与业务人员一起进行持续迭代,有的项目甚至很难确立一个明确的终止时间点(例如电商的推荐系统一般由一个团队持续优化),这就需要商业银行能够允许在特定的大数据分析项目上,采取“数据分析+业务应用”的数据分析模式,以迭代方式优化分析结果和具体业务。

可见,Hadoop平台并不是商业银行具备大数据能力的充要条件,商业银行不仅需要在软硬件平台上持续投入,还需要在前端设计、数据分析模式等方面加以改造,才能更加适应大数据分析的要求。

大数据只是数据分析部门的事?

如前所述,大数据能力是以数据分析为基础的,融合商业决策、客户感知、个性化服务为一体的综合竞争力,因此,大数据能力建设就不应仅由数据分析部门来承担。

要从战略层面将大数据能力建设纳入发展规划。

应做好顶层设计,把大数据能力建设与信息化银行建设结合起来,与线上线下一体化建设结合起来,与互联网金融发展战略结合起来,协同业务、渠道、科技、数据分析等多个部门,做好顶层设计和统筹规划,形成“全员大数据”的氛围,从数据源梳理、数据分析平台搭建、分析模式确立、外部数据交换规则等多个层次制定明确的方针与操作标准,加快大数据能力建设的进度。

要重视数据分析流程的效率提升。

大数据分析的效用大小,很大程度上取决于数据的活性以及分析结果投入具体业务的速度,因此,要尽可能压缩传统BI的业务链条。

可在电子渠道和自助渠道尽可能地实现数据采集与分析结果应用的一体化(例如,基于客户个性的产品关联推荐、基于场景的实时定价、自助设备界面个性化自适应等),也可在传统的BI领域中,应用大数据的处理模式,以高实时性的中间数据层为媒介,建立效率更高、实时性更强、管理者自定义程度更深的商业智能系统,实现商业报表的实时化、移动化、定制化。

要重视人才储备和技术积累。

大数据技术的发展日新月异,数据的人才储备和技术积累却不能一蹴而就,需要相当力度的持续投入。

人才储备方面,应本着“引进一批,培养一批,储备一批”的原则,引进一小批高层次技术人才,通过具体的项目实施,培养大量的存量技术人员,并通过面向高校和社会的大数据技术竞赛、资助开源社区等方式,形成广泛而有效的人才储备。

技术积累方面,应按照“开放并包,为我所用”的思路,组成大数据预研团队,积极开展开源项目的筛选、验证、吸收工作,沿着“引入并消化大数据开源项目—资助大数据开源项目—提出并主导大数据开源项目”的路径,不断强化自身在大数据技术方面的优势,形成自身的核心竞争力。


本文作者:谢尔曼 黄旭

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
2月前
|
数据采集 分布式计算 MaxCompute
MaxCompute 分布式计算框架 MaxFrame 服务正式商业化公告
MaxCompute 分布式计算框架 MaxFrame 服务于北京时间2024年09月27日正式商业化!
69 3
|
4月前
|
数据可视化 前端开发 大数据
商场智能导视系统深度解析,AR与大数据融合创新商业运营模式
**商场智能导视系统提升购物体验:** 通过三维电子地图、AR导航、AR营销、VR全景导购及可视化数据,解决顾客寻路困扰,增强店铺曝光,简化招商流程,优化商场管理,借助科技创新驱动顾客满意度、品牌曝光度及运营效率的全面提升。
111 0
商场智能导视系统深度解析,AR与大数据融合创新商业运营模式
|
DataWorks 大数据
《DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季》电子版地址
DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季
131 0
《DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季》电子版地址
|
分布式计算 运维 搜索推荐
基于阿里云Maxcompute搭建商业广告数据分析系统
互联网时代,信息流广告越来越多。而信息流广告的投放以大数据测算为依托,同样的数据,不同的解读方式,在进行投放指导时会产生不同的效果。
285 0
基于阿里云Maxcompute搭建商业广告数据分析系统
|
存储 分布式计算 DataWorks
某智能终端厂商流量商业化项目的云原生大数据平台实践
随着流量获取,移动互联网业务成为集团三大战略之一,启动流量商业化项目,包括类似阿里妈妈的流量联盟、帮助广告主更好买量的数字化营销平台以及用户体系等,其中广告检索和广告大数据平台成为支撑整个流量商业化项目的技术基础。
3327 0
|
数据可视化 算法 大数据
大数据可视分析背后的商业逻辑
大数据可视分析背后的商业逻辑
大数据可视分析背后的商业逻辑
|
新零售 供应链 大数据
银泰商业CMO程泳江:大数据实现人、货高效匹配,百货公司变为以客为先
过去的百货公司以店为先,现在的百货公司以客为先,银泰商业CMO程泳江表示。 1月24日,NEXT·创新大会暨合肥高新区新经济发展论坛在合肥举行,银泰商业CMO程泳江出席本次大会并做《数据驱动创新创业》主题演讲,分享交流银泰的数字化转型经验。 程泳江认为,盒马是阿里的新零售大军,盒马是平地起高楼,而银泰是旧城改造。
586 0
|
大数据 双11 供应链
银泰商业CMO程泳江:大数据实现人、货高效匹配,百货公司变为以客为先。
过去的百货公司以店为先,现在的百货公司以客为先,银泰商业CMO程泳江表示。
|
存储 大数据 流计算
【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务
基于Blink为新商业调控打造实时大数据交互查询服务 从IT到DT、从电商到新商业,阿里巴巴的每个细胞都存在大数据的DNA,如何挖掘大数据的价值成为抢占未来先机的金钥匙!传统的大数据开发主要基于离线计算平台MaxCompute(ODPS)进行天级别、小时级别的批量数据分析,但近些年随着618、99.
6543 0