随着云计算、物联网、移动互联网等新一代信息技术的快速发展,人类产生的数据量呈指数级增长。据资料显示,2012年,全球数据量达到2.8ZB,预计到2020年,全球数据量将达到40ZB。大数据蕴含着巨大的价值,如今众多企业已将数据视作企业的宝贵资产。然而,数据价值密度与数据总量成反比。面对巨大的数据规模,如何管理和利用数据,使其发挥价值是企业必须考虑的重要问题。大数据的价值所在使其面临着隐私和安全方面的威胁。大数据治理将组织的部门、流程、人等元素与数据的整个生命周期联系在了一起,对企业数据管理和数据资产价值有着至关重要的作用。
《DGI数据治理框架》一文将数据治理定义为“数据相关事务的决策和授权的执行”,并进一步解释为信息处理过程决策权和职责的策略,约定了由谁负责处理哪些信息,并在什么情况下采用哪种方法,以及何时来执行。首先,大数据治理是信息治理计划的一部分,这是其定位。这就要求组织在制订信息治理框架时,必须将大数据纳入其中,比如在信息治理委员会中增加数据科学家,在信息治理目标中增加大数据治理目标等。其次,大数据治理主要是数据处理的一系列相关政策的制订,这是其内涵。再次,必须优化大数据,这是大数据治理的重点。最后,大数据必须变现,这是大数据治理的目的所在。
大数据体量大、种类繁多,且价值密度低,组织必须对其进行优化,比如定义元数据、净化大数据、实施数据生命周期管理等。看似没有任何价值的单一数据集合在一起时,会发现新的价值,这是大数据价值体现的重要途径之一。而大数据价值的体现往往会涉及数据的隐私,这就要求组织在进行大数据价值体现时,必须注重大数据的隐私处理。组织将数据视作其资产的一种,要将其转化成组织可以使用的现金,而变现的方式可以是单纯地出售数据本身,也可以是利用数据开发新业务。
一、企业实施大数据治理的必要性
1、企业实现数据资源在组织内部的共享和交换的需要
目前,大部分工业企业已经完成了ERP、CRM、供应链、协同办公等企业信息化系统的建设,但是由于数据分散在众多系统中,缺乏统一的数据定义和数据分类,因此在数据使用上存在数据不标准、数据不一致、数据完整性差等问题。
数据不标准主要表现在不同系统之间描述同一业务实体的数据定义标准不同;数据不一致主要表现在相关联业务系统的数据不同步、各应用系统间存在数据编码规则不一致的问题,还有重复编码的问题;数据完整性差表现为缺少数据实体的关键信息。企业必须对各个系统的数据源以及输出的数据资产进行统一的数据治理,实现数据在不同组织和系统内的交换与共享。只有解决了数据问题,才能实现IT价值。
2、提升海量数据资源质量的需要
大数据时代数据产生的价值越来越大,各企业都在探索基于大数据的相关技术和应用模式,最终目的就是挖掘数据的价值,推动企业的发展。因为数据有可能是成本,也有可能是资产,能给企业带来重要的价值,是企业宝贵的资源。如果没有数据治理,数据的质量就无法保证,数据难以成为企业的资产,既使再多的业务和技术投入也都是徒劳。数据质量低下会导致企业在IT方面的重复投入,各种应用系统的价值难以有效地发挥出来,数据的问题甚至会使得企业错失商机,损失无法估量。
数据治理是保证数据质量的必需手段,数据治理的价值贡献在于确保数据的准确性、可获取性、安全性、适度分享和合规使用。例如,可以对数据服务涉及的计算资源、数据资源制定标准化的统一管理规范,制定涵盖主数据、数据主题、数据质量、数据安全、数据共享等数据标准体系及数据管理体系。
3、数据驱动企业进行科学决策的需要
当今世界进入了数据爆炸的时代,数据成为企业重要的资产。企业涉及的数据类型,包括文本、图像、音频、视频等,分为静态数据和动态数据,实时数据和非实时数据,结构化数据、半结构化数据和非结构化数据,这些数据有些来源于企业的内部信息系统及设备,有些来源于外部的供应链和社交网络。数据驱动企业的决策成为时代发展的必然。
数据治理能使企业清楚地认识自己的优势和劣势,有利于企业提高决策的合理性,为用户提供更加优质的服务。大数据时代,企业可以通过对数据的整合和分析,从中获取对企业有用的数据。新的数据技术手段,使得信息在企业内部不同部门之间有效、快速地传递,使得不同部门之间的交流、沟通更加透明,使得企业不同的利益主体能广泛地参与决策,从而提高决策的科学性和合理性。
4、企业整合数据资源提升竞争力的需要
在企业的生产经营活动中会产生大量的数据,企业需要对事务性数据、机器生成数据、社交媒体数据等内外部数据进行整合,特别是对与企业重大商业利益相关的数据资源的整合、分析与利用,从而指导企业的经营与发展。
数据技术带来的不仅是技术的更新,还有管理方式的改变,数据治理不仅局限在企业的决策层,还包含管理层和业务层,数据治理能改善企业管理层与其他利益相关者的关系,使企业变得更加敏捷和高效,更注重用户体验的提升和需求的满足。例如,为解决日常的数据收集、数据处理效率较低、数据不一致的问题,可以通过元数据管理系统,建立采集元数据和元数据关系,提升跨系统的数据交互能力以及数据整合能力,进一步提升企业的核心竞争力。
二、企业大数据治理现状
伴随着大数据时代的到来,企业由于早期在信息系统构建中缺乏统一的全局规划,使得其在当前数据治理体系的构建中存在着一系列的问题,如果不能有效对这些问题进行解决,以构造出完善的数据治理体系,势必会对未来企业的发展带来不利的影响。
1、大数据时代的定义及特征
(1)大数据时代的定义
我国已经进入了数字经济时代,必然会产生大量数据,大数据主要是指人们在日常工作、生产、生活中通过数字化的方式进行呈现和存储。也可以很通俗地将大数据理解成为巨大的数据信息,而伴随着人们的各种需求的不断增加,这种数据量还在不断的增加。举例来说,人们通过计算机互联网对视频和新闻的观看,都不同程度地促进了大数据时代的快速形成。
(2)大数据时代的特征
大数据时代具有如下几个明显的特征:
数据量大。这是大数据时代最为突出的特征,这也是大数据时代本来就是基于大量数据信息所产生的是分不开的。
速度很快。正是由于大量数据的产生,需要不断提升信息数据处理速度,才能跟上大数据时代的要求,而如果数据处理速度难以跟上,就不能满足信息的快速传播和扩散。
种类很多。伴随着大数据时代的到来,计算机互联网技术在人们的生活中获得了非常广泛的应用,也使得数据来源变的更加丰富,相应地,数据的种类也变的更多。
2、大数据时代企业数据治理现状
在大数据时代下,企业在数据治理体系的构建过程中,主要面临着如下几个突出的问题:
(1)数据定义的缺失
所谓数据定义的缺失,就是企业的部分业务源系统以及外部数据源缺少关键业务元素定义。这是因为企业系统开发建设的出发点大多以满足客户业务交易为主要目标,对于统计分析涉及的数据要素项的定义不够关注,因此造成部分业务源系统和外部数据源的数据定义不完备。在这种情况下,就很容易造成企业的不同部门有着不同的理解,甚至在对同一个字段的理解也会产生很大的歧义。
(2)数据标准的差异
我国企业的早期信息化建设过程中,其业务源系统相对是比较分散的,很少有从全局的角度进行考虑,也就使得信息孤岛的现象比较突出,也带来了有关系统的物料、客户、供应商、会计科目、指标数据的不一致。正是由于企业在数据标准之间的差异,也使得各个信息系统之间的数据很难有效进行共享,也带来了企业的信息资源利用效率难以跟上实际需求,伴随着大数据时代的到来,更加使得挑战进一步扩大。
(3)数据更新的滞后
在大数据时代下,虽然企业为了满足各个系统与外部数据的内部访问,都提升了访问效率,减少手工数据传输,相同的信息经常会在不同系统之间进行冗余存放,不过由于对数据的更新滞后,很容易带来冗余数据的不一致,继而产生了数据质量的问题,这也是在企业在数据治理中应该重点关注的问题。
(4)数据管控程度不高
企业大数据建设的最终目标是促进企业对于数据应用,最大程度发挥数据价值。因此,在当前企业大数据的治理中,人们普遍重视数据应用,围绕应用中出现的数据关联、质量管理、业务协同等进行数据治理,而忽视数据治理体系中的管理机制、控制能力以及安全与隐私保护等。
(5)数据治理机制不健全
在大数据环境下,数据治理的主体趋于多元化,即一个数据治理流程往往需要多方参与。例如,在数据质量管理中,问题数据的发现、反馈、修正是一个多方参与的闭环流程,参与方包括:企业数据中心(数据治理方)、数据源头单位(数据提供方)、数据用户(数据使用方)等。这种多方协同治理的业务模式,对企业大数据治理制度和流程机制提出了更高要求。
(6)技术支撑能力不足
企业大数据治理体系的技术支撑需要涵盖大数据管理、存储、质量、共享与开放、安全与隐私保护等多个方面,当前相应的技术研究关联性和系统性还存在欠缺,都是侧重于点,而在整体上将技术关联起来还有问题。具体来说,以金融或电信运营商行业为典型代表的传统数据治理技术,是以基于主数据、元数据、数据规范的数据仓库管理系统,可实现特定领域和类型的应用级数据质量管理。但无法满足企业大数据环境下的海量、异构、多源、全格式(结构化、半结构化和非结构化)数据的治理需求。
三、企业大数据治理成熟度评估
1、大数据治理模型
基于以上分析,只有更好的评估企业大数据治理成熟度,才能更好的指导企业大数据治理的建设。根据实践可以将大数据治理模型理解为人与组织、策略和能力的三维架构。人与组织是数据治理的主体,涉及企业中的各个职能部门及分子等,他们分别承担着不同的治理职责。策略是大数据治理的工具,能力是大数据治理的手段。下图所示为大数据治理模型三维架构。
具体来说,人与组织包含利益相关者、治理委员会、管理委员会和内部员工。利益相关者指组织内部和外部环境中受组织决策和行动影响的任何相关者,数据的产生者、管理者、使用者和监督者等;治理委员会是组织治理数据的最高机构,负责作出数据相关事务的决定,并将数据治理标准和措施汇报给数据的利益相关者;管理委员会负责具体实施治理委员会制定的各项数据治理决定,并将数据治理结果汇报给治理委员会;内部员工是数据治理架构中不可或缺的一部分,贯彻执行数据治理委员会和管理委员会制定的各项数据治理策略。
策略是组织制定的所有与大数据有关的数据优化、隐私保护和数据变现的准则和规范,包括组织数据治理的使命和愿景、治理指标、数据治理规则和定义、权利与职责、控制措施。数据治理的使命和愿景包括数据治理的整体目标,给予数据利益相关者持续与跨界的数据保护和服务,不合规准则引发的问题的解决方案等;数据治理指标定义了数据治理目标的衡量方法;数据治理规则和定义包括与数据相关的政策、标准、合规要求、业务规则和数据定义等;权利和职责规定了由谁来负责制订数据相关的决策、何时实施、如何实施,以及组织和个人在数据治理策略中该做什么;控制措施主要针对数据未治理风险防范和数据治理过程中可能发生的各类风险,以及如何做好数据隐私保护。
能力则反映了组织进行数据治理所具备的条件和水平,包括元数据管理、数据质量管理、业务流程整合、主数据管理和信息生命周期管理。元数据是描述数据的数据,即描述数据和信息资源的信息。元数据管理就是整合大数据与企业的元数据库。数据质量管理准则包括数据识别、采集、测量、提升和论证质量、整合组织数据的方法,比如具备应对非结构化数据占据数据总量绝大部分情况的能力。业务流程整合要求组织制定的大数据治理计划必须与组织的核心业务流程相匹配,以便从核心业务流程中获取大数据治理的关键支持政策。主数据管理描述了一组规程、技术和解决方案,用于维护业务数据的一致性、完整性、相关性和精确性。大数据治理需要制订将大数据整合到主数据管理环境的政策。信息生命周期管理则要求组织判断应该将何种数据保留在数据分析系统,何种数据需要存档,何种数据需要删除。
2、大数据治理成熟度评估
等级 |
等级描述 |
初始级 |
a.没有定义与数据治理相关的架构和角色; b.没有正式的数据治理策略; c.不具备数据治理能力。 |
基本级 |
a.定义了数据治理角色和职责,管理者意识到数据治理的重要性,但对管理知识知之甚少; b.已有的数据治理策略已经文件化,但不具有连贯性; c.数据治理能力十分有限,只有很少一部分人掌握数据治理通用级别的知识。 |
定义级 |
a.定义了数据治理角色和职责,管理者能主动推动数据治理计划实施; b.数据策略已经文件化,并涵盖了针对特殊数据的治理策略;策略通过公共渠道容易获取,大多数利益相关者能够理解; c.具备数据治理的全部要素,一部分人知道详细的数据治理能力。 |
管理级 |
a.定义了完备的数据治理角色和职责,并有专门的数据质量专家,管理者能主动推动数据治理计划实施; b.所有的数据策略都已经文件化,并且是审计合规的,都能通过公用渠道获取,数据治理利益相关者主动关注策略的增添、更新和删除; c.所有定义的数据治理能力层级都有可用的方法,建立了系统化的数据治理处理流程。 |
优化级 |
a.定义了完备的数据治理角色和职责,管理委员会来自各个部门,拥有元数据管理小组、数据质量技能中心、主数据管理委员会等; b.所有的数据策略都已经文件化,并且是审计合规的,所有的数据治理利益相关者都参与了策略发展过程;制订了自动化的政策,以保证数据在整个组织内保持一致、准确和可靠; c.所有定义的数据治理能力层级所指定的部门和关键数据是固定的,能够在数据处于静态和动态时进行数据质量修复,数据不间断地被跟踪检查,且任何偏离标准的问题都可以立即解决。 |
成熟度评估是企业大数据治理状态和能力的一种衡量方式。大数据治理模型共三个维度,具体涵盖14个评价指标。每个指标分别以5个等级来衡量其成熟度,然后再统筹考虑评价指标权重,得到组织大数据治理的整体成熟度评价。根据综合评价结果,企业大数据治理成熟度可以分为以下5个等级,即初始级、基本级、定义级、管理级和优化级。
四、企业大数据治理框架
1、大数据治理总体框架
根据企业大数据治理特点和需求分析,从企业大数据应用创新的角度,企业大数据治理总体框架由九部分组成。
(1)大数据生命周期管理
数据生命周期是数据治理的时间轴,数据治理服务于数据的全生命周期。因此,完善的数据生命周期管理是确保数据治理有序、全面的前提条件之一。在企业大数据领域,数据生命周期管理又分为两类,一类是技术层面的数据周期管理,指按照数据加工处理时序(数据采集、数据存储、数据处理、数据建模、数据调度、数据销存)而建立的时间里程管理;另一类是业务层面的数据周期管理,指按照业务流程时序而建立的时间里程管理。
(2)数据源管理
以数据资源目录的功能形式,提供对待治理的数据源的管理。在功能模块上,数据源管理由两类功能组成:一是数据源部门相关的组织机构管理功能,二是数据源的目录、格式类型和交互周期等资源属性管理功能。从数据源提供的数据类型上看,企业大数据治理的对象包括结构化数据、半结构化数据和非结构化数据,以及来自互联网的数据等。
(3)主要技术支撑
企业大数据治理中所用的主要技术包括数据检核引擎、ETL工具、消息中间件、流程引擎、Hive和MPPDB等。相对于传统数据治理技术,专门引入了Hive和MPPDB等大数据领域的数仓工具,代替传统数仓中Oracle、MySQL等关系型数据库,以满足大规模数据的治理效率要求。另外,要特别强调的是,数据质量检核引擎的设计最具技术含量,也最为重要,它直接决定了数据检核的能力和数据质量的把控程度。因此,质量检核引擎的设计要充分响应上文中的需求分析,体现技术先进性、功能完整性、覆盖全面性、检核深度性和使用便捷性,实现良好的数据质量检查和核对功能。
(4)贴源层治理
贴源层治理又叫近源治理,是指在最贴近数据源头的一侧,对数据进行建模、标准化和技术检核方面的治理。贴源层治理的要点如下:
第一,数据建模时,须按照对业务属性的影响程度,区分主数据和业务数据,以满足数据实体在业务流程、数据质量控制方面的不同要求。主数据是指对业务影响至关重要的共享数据,如组织机构、员工、会计科目、物料、供应商、客户等。同时,也要按照记录属性对数据实体识别的影响,为每个属性设计权重,区分核心和普通属性,以满足深度数据质量控制要求。
第二,数据标准化是指按照元数据或数据元标准规范,对汇集的源头数据进行格式转换、字典映射,进行初步的数据规范。
第三,数据检核是数据质量控制的核心举措,根据是否存在业务相关性,又分为技术检核和业务检核。其中,数据技术检核是指对数据进行不涉及业务的检查和核对。即按照数据质量标准,使用数据检核引擎,对源数据进行格式、值域、重复度、完整性、准确性等质量校核,以最大程度地发现、排除问题数据,为后续质量控制打下坚实基础。
第四,数据质量考核评价是贴源层治理的主要输出结果,通常这个结果以数据质量报告的形式输出。数据质量报告由标准规范体系中预先定义的质量评价指标组成,用于反馈数据治理相关方,触发数据质量控制的相关业务流程。
(5)中心层治理
与贴源层治理相对应的是中心层治理,即在贴源层治理和数据资源中心之外的其他治理内容。中心层治理的内容包括数据关联、数据融合和数据业务检核,它们具有一个业务相关的共性特征,即治理内容与数据所属业务领域密切相关。中心层治理的要点如下:
第一,数据关联是指基于业务主数据,将各相关数据模型串联起来,形成实体的一个全息数据画像,并通过相关属性,将这种数据间的关联关系保存起来。数据关联对于企业大数据应用实施具有决定性作用,通常可关联的数据,才是实际可用的数据。
第二,数据融合是指在数据关联的基础上,将同类数据去重后聚合,把“一数多源”变为“一数一源”;或者将同一个实体的不同数据片段,构建形成新的、更完整的数据描述。数据融合通常面向特定应用场景,是数据应用中最为常见的数据操作之一。
第三,数据业务检核是基于数据的业务属性进行的业务逻辑合规性检查核对。业务检核是数据质量检核中不可或缺的部分,与技术检核同等重要。以个人身份证号数据为例,技术检核仅能做到身份证号长度、格式、特定位值(地区编码、年龄)等的合规检查,而不能识别该号码的真假;业务校核则是通过把该号码与身份证登记机关的数据库相比对,确认出号码的真假。
(6)数据资源中心
数据资源中心是数据治理的结尾环节,进入数据资源中心的数据被认为是标准、合规、正确、可直接应用的数据。在企业大数据治理体系中,数据资源中心阶段的数据治理,侧重于数据资产的形成和管理,以及数据集的存储划分。在该框架中,以数据资产目录来统领数据资产的管理;以面向数据实体的基础数据库和面向应用的主题数据库,统一存储治理后的数据。
(7)数据标准规范体系
数据标准规范是实施数据治理的基础前提条件,对数据治理的成效起着决定性作用。没有标准规范,无从数据治理;标准规范不全,数据治理不全。对于企业大数据来说,要做好治理需建立健全以下规范:
第一,元数据标准。要全面建立元数据标准,做到对全域数据的覆盖。
第二,数据元标准。要有选择地为主要数据实体建立数据元标准。
第三,数据分类编码标准。要为重要数据建立分类编码标准,并为基础数据建立编码字典表。
第四,数据目录规范。要在尽可能大的范围内,建立统一的企业数据资源目录规范,在最大程度上规范目录编码和操作。
第五,数据质量标准。要从准确性、合规性、一致性、重复性、及时性、完整性等指标角度,建立全面的数据质量标准,并给出评估指标和评估方式。
第六,数据治理流程规范。流程化是治理有序的保障,要将数据治理流程化,建立相应的流程规范,通过流程规范提升治理有序水平。
(8)大数据安全和隐私管理
企业的生产经营数据价值大、敏感度高,涉及企业战略的隐私和股东的权益。因此,在企业大数据的治理中,要建立相应的治理安全管理体系,确保各治理环节的数据安全。一般情况下,数据治理要达到以下安全保护要求:
第一,按照《工业数据分类分级指南(试行)》、《信息安全等级保护管理办法》和《信息系统安全等级保护定级指南》的要求,确定数据治理系统的安全保护等级,构建安全防护体系。
第二,针对不同信息可动态设置安全保护手段。
第三,治理功能与组织机构和用户分级权限相结合。
第四,提供数据签名和数据脱敏功能,确保隐私安全。
第五,所有治理操作均有记录日志,纳入统一安全审计管理。
(9)智能化管理
为构建自动化、智能化的数据治理平台,企业大数据治理框架还需具有追溯和可视化展示功能。追溯功能是指设置并记录数据治理的各个里程节点,可以追查数据治理的过程信息。并且在一定时效和条件下,可将某节点治理后的数据回退到其之前的任何状态。追溯功能可实现数据治理的灵活控制,利于复杂数据环境下实现智能化数据治理。具有良好可视化展示功能是先进数据治理平台的基本要求。治理可视化能带来良好的用户操作体验,便于治理工作的实施,利于人工参与治理效率的提高。
2、企业大数据治理主要流程
企业大数据治理的主要流程如下图所示:
第一,数据源分析。在新的数据源接入时,首先做数据源的分析,内容包括:确认要治理的数据类别、数据项和数据周期等,抽取样例数据,分析数据特征,做好为数据治理服务的规划准备。
第二,数据治理规划。数据治理规划分为三个步骤:(一)对样例数据进行标准规范分析,根据分析结果得出数据模型和元数据标准;(二)对样例数据进行数据质量评估,根据评估结果制定数据检核规则、关联策略和融合方案;(三)将样例数据与其他已有数据进行对比,确定数据关联和融合策略,并进一步确认数据归属(所属的基础库或主题库)。
第三,数据标准管理。根据数据治理规划的标准规范分析结果,建立全部数据模型,以及相关元数据、主数据或数据元标准,更新相关数据标准。
第四,数据治理策略管理。根据数据质量评估和数据对比结果,确定数据检核规则,以及建立数据关联和数据融合的策略。
第五,常态化数据治理实施。对待治理的数据进行数据检核、数据关联和数据融合,除初次治理的数据须经前四个步骤外,同类型数据后续进入常态化治理阶段,直接从本步骤开始。
第六,数据资源管理。将治理后的数据存入基础库或主题库,从资产的属性对数据进行资产化处理,形成数据资产,进行数据资产管理。
五、基于大数据的数据治理策略
1、建立完善的数据标准体系
在大数据时代下,企业应该根据业务管理中所涉及的渠道、合约、产品、分类、事件等数据要素,逐步建立起机构标准类、员工标准类、产品标准类、客户标准类、渠道标准类、营销标准类、账户标准类、交易标准类、公共标准类以及合约标准类数据标准体系框架。同时伴随着大数据时代的不断发展,还要对该数据标准体系进行完善,从而更加规范、科学地指导企业使用数据。
2、制定完善的数据应用标准流程
数据标准的核心是建立一个统一的企业级规范,从而促进企业全行范围之内的数据有机共享,继而提升数据的管理和使用水平。尤其在大数据的时代下,企业更应该根据半结构化和结构化、非结构化数据的不同特征,基于加强内外部数据共享的角度为大数据制定统一的业务解释和标准,加强协调企业的相关部门对数据标准的不同需求,继而建立其适用的统一模型以及数据共享为基础的数据应用标准流程。
3、形成完善的数据评估体系
在大数据时代,企业更应该加强对数据一致性、完整性以及准确性的评估,继而保证数据的质量。也就是:(一)提供的信息不能存在着重复和冲突的现象,以保证数据的一致性;(二)必需的数据以及关联关系务必要存在,不能出现违反数据标准和质量需求的数据,体现数据的完整性;(三)数据务必能够反映出企业的真实信息,符合企业的实际业务需求,体现出准确性的特征。
参考文献:《政务大数据环境下的数据治理框架设计》、《大数据治理模型与治理成熟度评估研究》、《浅谈大数据时代下商业银行的数据治理体系建设》