「数据治理那点事」系列之四 | 书同文车同轨:数据治理之数据标准管理

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 这篇文章主要从数据治理中的重要基础内容:数据标准入手,从以下几个角度展开具体讲解:对数据标准的认识误区数据标准的定义企业如何制定数据标准数据标准化过程中出现难题的原因以及解决方案一、大数据治理标准体系根据全国信息技术标准化技术委员会大数据标准工作组制定的大数据标准体系,大数据的标准体系框架共由七个类别的标准组成,分别为:基础标准、数据标准、技术标准、平台和工具标准、管理标准、安全和隐私标准、行业应用标准。

这篇文章主要从数据治理中的重要基础内容:数据标准入手,从以下几个角度展开具体讲解:

  • 对数据标准的认识误区
  • 数据标准的定义
  • 企业如何制定数据标准
  • 数据标准化过程中出现难题的原因以及解决方案

一、大数据治理标准体系

根据全国信息技术标准化技术委员会大数据标准工作组制定的大数据标准体系,大数据的标准体系框架共由七个类别的标准组成,分别为:基础标准、数据标准、技术标准、平台和工具标准、管理标准、安全和隐私标准、行业应用标准。本文主要阐述其中的第二个类别:数据标准

二、关于数据标准认识的几个误区

数据标准这个词,最早是在金融行业,特别是银行业的数据治理中开始使用的。数据标准工作一直是数据治理中的重要基础性内容。但是对于数据标准,不同的人却有不同的看法:

有人认为数据标准极其重要,只要制定好了数据标准,所有数据相关的工作依标进行,数据治理大部分目标就水到渠成了。

也有人认为数据标准几乎没什么用,做了大量的梳理,建设了一整套全面的标准,最后还不是被束之高阁,被人遗忘,几乎没有发挥任何作用。

首先亮明作者的观点:这两种看法都是不对的,至少是片面的。实际上,数据标准工作是一项复杂的,涉及面广的,系统性的,长期性的工作。它既不能快速地发挥作用,解决掉数据治理中的大部分问题,但肯定不是完全没有作用,如果数据标准工作的结局只是最后剩下一堆文档,那只能说明这项工作没有做好,没有落到实处。本文主要的目的,就是分析为什么会出现这种情况,以及如何应对。而首先需要做的是厘清数据标准的定义。

三、数据标准的定义

何为数据标准,各相关组织并没有统一的,各方都认可的定义。结合各家对数据标准的阐述,从数据治理的角度出发,我尝试着给数据标准做一个定义:数据标准是对数据的表达、格式及定义的一致约定,包含数据业务属性、技术属性和管理属性的统一定义;数据标准的目的,是为了使组织内外部使用和交换的数据是一致的,准确的。

四、如何制定数据标准

一般来说,对于政府,会有国家或地方政府发文的数据标准管理办法,其中会详细规定相关的数据标准。所以在此主要讲企业如何制定数据标准。

企业的数据标准来源非常丰富,有外部的监管要求,行业的通用标准,同时也必须考虑到企业内部数据的实际情况,梳理其中的业务指标、数据项、代码等,将以上所有的来源都纳入数据标准是没有必要的,数据标准的范围应该主要集中在企业业务最核心的数据部分,有的企业也称作关键业务数据或核心数据,只要制定出这些核心数据的标准,就能够支撑企业数据质量、主数据管理、数据分析等需要。

五、数据标准化的难题

数据标准好制定,但是数据标准落地相对就困难多了。国内的数据标准化工作发展了那么多年,各个行业,各个组织都在建设自己的数据标准,但是你很少听到哪个组织大张旗鼓地宣传自己的数据标准工作多么出色,换句话说,做数据标准取得显著效果的案例并不多。为什么会出现这种情况,主要有两个原因:

一是制定的数据标准本身有问题。有些标准一味地追求先进,向行业领先看齐,标准大而全,脱离实际的数据情况,导致很难落地。

第二个原因,是标准化推进过程中出了问题。这是我们重点阐述的原因,主要有以下几种情况:

1、对建设数据标准的目的不明确。某些组织建设数据标准,其目的不是为了指导信息系统建设,提高数据质量,更容易地处理和交换数据,而是应付监管机构检查,因此需要的就是一堆标准文件和制度文件,根本就没有执行的计划。

2、过分依赖咨询公司。一些组织没有建设数据标准的能力,因此请咨询公司来帮忙规划和执行。一旦咨询公司撤离,组织依然缺乏将这些标准落地的能力和条件。

3、对数据标准化的难度估计不足。很多公司上来就说要做数据标准,却不知道数据标准的范围很大,很难以一个项目的方式都做完,而是一个持续化推进的长期过程,结果是客户越做遇到的阻力越大,困难越多,最后自己都没有信心了,转而把前期梳理的一堆成果束之高阁,这是最普遍的问题。

4、缺乏落地的制度和流程规划。数据标准的落地,需要多个系统、部门的配合才能完成。如果只梳理出数据标准,但是没有规划如何落地的具体方案,缺乏技术、业务部门、系统开发商的支持,尤其是缺乏领导层的支持,是无论如何也不可能落地的。

5、组织管理水平的不足:数据标准落地的长期性、复杂性、系统性的特点,决定了推动落地的组织机构的管理能力必须保持在很高的水平线上,且架构必须持续稳定,才能有序地不断推进。

以上这些原因,导致数据标准化工作很难开展,更难取得较好的成效。数据标准化难落地,是数据治理行业的现状,不容回避。

六、如何应对这些难题

应对以上这些难题,最经济、最理想的模式当然是:做大数据建设,首先做标准,再做大数据平台,数据仓库等但一般的不大可能有这样的认识,很多时候大家都是先建设再治理。先把信息系统、数据中心建好,然后标准有问题,质量不高,再建数据标准,但实际上这时候已经是回过头来做一些亡羊补牢的事情,客户的投资肯定有一部分是浪费。

正因为其太过理想化,所以这种模式几乎是见不到的。在实践中,我们往往还是需要更多地考虑如何把数据标准落地到已有的系统和大数据平台中。

数据标准落地有三种形式:

1、源系统改造:对源系统的改造是数据标准落地最直接的方式,有助于控制未来数据的质量,但工作量与难度都较高,现实中往往不会选择这种方式,例如有客户编号这个字段,涉及多个系统,范围广、重要程度高、影响大,一旦修改该字段,会涉及到相关的系统都需要修改。但是也不是完全不可行,可以借系统改造,重新上线的机会,对相关源系统的数据进行部分的对标落地。

2、数据中心落地:根据数据标准要求建设数据中心(或数据仓库),源系统数据与数据中心做好映射,保证传输到数据中心的数据为标准化后的数据。这种方式的可行性较高,是绝大多数组织的选择。

3、数据接口标准化:对已有的系统间的数据传输接口进行改造,让数据在系统间进行传输的时候,全部遵循数据标准。这也是一种可行的方法。

在数据标准落地的过程中,需要做好这几件事:

  • 事先确定好落地的范围:哪些数据标准需要落地,涉及到哪些IT系统,都是需要事先考虑好的。
  • 事先做好差异分析:现有的数据和数据标准之间,究竟存在哪些差异,这些差异有多大,做好差异性分析。
  • 事先做好影响性分析:如果这些数据标准落地了,会对哪些相关的游戏厅产生什么样的影响,这些影响是否可控。元数据管理中的影响性分析可以帮助用户确定影响的范围。
  • 制定落地的执行方案:执行方案要侧重于可落地性。不能落地的方案,最终只能被废弃。一个可落地的方案,要有组织架构和人员分工,每个人负责什么,如何考核,怎么监管,都是必须纳入执行方案中的内容。
  • 具体的执行落地方案:根据执行方案,进行数据标准落地执行。
  • 事后评估:事后需要跟踪、评估数据落地的效果如何,做对了哪些事,哪些做得不足,如何改进。

总结

数据标准的建设大致可以分成两个阶段

第一个阶段是梳理和制定数据标准

第二个阶段是数据标准的落地和实施

而后者是公认的难题
image

作者:蒋珍波(乐天),6 年+ 大数据咨询经验,擅长为客户提供科学合理的大数据解决方案。目前担任数澜科技咨询专家。

相关文章:

「数据治理那点事」系列之一:那些年我们一起踩过的坑

「数据治理那点事」系列之二:手握数据「户口本」,数据治理肯定稳!

「数据治理那点事」系列之三:不忘初心方得始终,数据质量治理?

【更多数据治理方面的文章在数澜社区——国内首个面向数据人的数据中台交流社区。专注于数据中台研究、数栖平台使用指导、数据可视化探讨。】

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
数据采集 数据建模 BI
数据中台实战(05)-如何统一管理纷繁杂乱的数据指标?
数据中台实战(05)-如何统一管理纷繁杂乱的数据指标?
484 1
|
数据采集 人工智能 数据管理
数据资产化的前提-浅谈数据治理体系的建设
数据资产化的前提-浅谈数据治理体系的建设
|
数据采集 存储 安全
数据治理:管理和保护数据的最佳实践
随着企业日益依赖数据来驱动业务决策和创新,数据治理成为一个至关重要的话题。数据治理是指规范、管理和保护数据资产的过程,以确保数据质量、合规性和安全性。在本文中,我们将探讨数据治理的重要性以及一些实施数据治理的最佳实践。
483 0
|
监控 安全
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(2)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(2)
325 0
|
数据采集 SQL 监控
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(5)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(5)
281 0
|
存储 监控 安全
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(7)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(7)
227 0
|
监控 安全 数据管理
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(3)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(3)
326 0
|
数据采集 监控 安全
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(1)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(1)
195 0
|
存储 安全 数据处理
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(6)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(6)
377 0
|
数据采集 机器学习/深度学习 人工智能
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(4)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(4)
264 0