数据资产目录建设之数据分类全解(上)

简介: 数据资产目录建设之数据分类全解(上)

数据治理“洗澡论”

其实他们之前做过数据一轮数据资产盘点,做了一个分类,也挂到系统上了,但是后来就没有后来了。治理做一半,等于啥也没干。我之前在群里开了一个玩笑,数据治理这种事情,就跟洗澡一样,首先得勤快点洗。一天不洗澡,身上就臭了。另外,标准也很重要,南方和北方对“洗干净”的定义不一样。南方洗澡的时候,只要泡泡冲干净,就算洗干净了。北方洗澡的时候,身上不搓下来二斤泥都不叫洗干净了。

还有,洗澡得全面,有些人洗澡不洗头还说得过去,但是洗澡只洗左胳膊,这算咋回事?最后,洗完澡得维护,水得擦干啊,衣服得换干净的,不要到外面踩泥巴,要讲卫生啊!但是很多人认为数据治理就是弄个项目就完事的。这就像是中世纪的欧洲,一生就洗三次澡,出生一次,结婚一次,入殓一次。其他时间都靠香水度日所以数据治理不是立一个项目就完事的,要么在家弄个浴室,要么定期去外面大众浴室,条件好可以再叫个搓澡的师傅,上个奶盐。

数据分类原则

这不,跟长时间没洗澡一样,长“数据虱子”了,各种指标爆炸数据质量低下等问题让数据部门的彭友非常难受,所以他们又要开始做数据治理了。首先要做的就是数据资产盘点,建立数据资产目录。盘点的时候好说,就是各种整理呗。但是到建立数据资产目录的时候就傻眼了,他们先是按照自己的理解整了一版目录结构。但是在把数据资产装进去的时候就发现有些数据资源不属于现有的任何一个分类,然后又来调整,但是一会儿又发现有些数据资源放这里也行,放在那里也行,这就蒙圈了

这是因为没有把握住数据分类的原则。具体可以分为:

1、全量:能够容纳组织全量数据资产;

2、系统:数据分类必须系统化、体系化,层次清晰、逻辑鲜明,形成具有隶属和并列关系的分类体系,展示数据之间的联系和区别;

3、规范:目录名称要能准确的表达该类目的实际内涵和外延,在整个目录中保持规范;

4、唯一:目录体系内,各自界限分明,尽可能保证不重复、不交叉、相互独立且唯一;
5、稳定可扩展:建立的数据分类要保持一定的稳定性,保持一段时间内的可持续使用,并保留可扩展的余地。

数据分类方法

数据分类其实来源于信息分类法,一共有三种:线分类法、面分类法、混合分类法。线分类法:简单来说,就是将数据按选定的若干个属性或特征,逐次分为若干层级, 每个层级又分为若干类别。同一分支的同层级类别之间构成并列关系,不同层级类别之间构成隶属关系。同层级类别互不重复,互不交叉。线分类法适用于针对一个类别只选取单一分类维度进行分类的场景。最典型的线分类法就是生物分类系统,有一个学科专门研究这个,叫“生物分类学”。

你仔细看看上面的图,就知道线分类法有很大的局限:一个分类只能描述单一的逻辑复杂一点就没法弄了,比如集团中有好几个不同的业态...面分类法:就是把数据依据各种属性或特征,分成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别。还可以将某个面中的一种类别和另外的一个或多个面的一种类别组合在一起,可以组成一个复合类别。

比如服装,有材料、颜色、款式等多个面,可以自由搭配组成任意内容。下面这个例子则是螺丝的面分类法,可以分为材料、直径、钉头、表面处理:

面分类法是并行化分类方式,同一层级可有多个分类维度。面分类法适用于对一个类别同时选取多个分类维度进行分类的场景。

混合分类法:顾名思义,就是线分类+面分类结合咯。一般来说,还是得以某一个方法为主,另外一个为辅。这下就能集合两种方式的优点,规避它们各自的缺点了。比如用面分类法解决多业态的问题,再用线分类法细化;或者用线分类法搞定前面几层,再用面分类法进行细化。

数据分类的层次关系

会后,彭友还找我要PPT。讲真,不是老彭我小气,关键是我还真没有专门为这个事情做一个PPT。因为这些内容其实早就有很全的指导了,比如《证券期货数据分类分级指南》里就很全:

这张图把业务、数据和数据表现形态之间的关系表现的很清楚。我们需要从业务、数据和形态三个视角对数据分类进行理解。其中,最先要了解的,就是业务。业务可以按条线和子类进行拆分,就算是集团公司,也能拆的很清晰。然后从业务角度,向下再进行拆解,从数据角度进行分类。所以数据角度的第一个层级应该是业务主题域,而不是纯粹的数据角度

数据分类应该从主题域不断细分,直到最细颗粒度。一般来说,在数据资产目录里,是要能看到详细的样例数据,并能申请API访问权限的。在这个时候,我们需要对数据进行分级,便于进行权限分配和安全管控。

最下面,其实不是数据的分类,而是数据的展示形态。数据最终是要在系统中用业务流程、数据查询、报表分析、大屏展示等各种形态利用起来的。

小结

数据分类分级看上去很简单,但是其中的道道还是蛮多的,一旦没弄好,会影响后续很多的事情。也不知道你对此感不感兴趣啊?

相关文章
|
6月前
|
存储 供应链
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——8. 资产目录:主题式的目录,打造精品数据
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——8. 资产目录:主题式的目录,打造精品数据
|
7月前
|
存储 数据采集 敏捷开发
数据工程——从数据到价值
数据工程——从数据到价值
|
9月前
|
运维 安全 网络安全
数据资产目录建设之数据分类全解(下)
数据资产目录建设之数据分类全解(下)
|
12月前
|
人工智能 安全 架构师
【数据治理】引导您制定有效数据治理计划的 7 个步骤
【数据治理】引导您制定有效数据治理计划的 7 个步骤
|
存储 数据可视化 程序员
选择文库系统的时候需要重点注意和对比哪些东西?
本人程序员出身,接近15年的代码经验,对互联网产品和运营也一直在实践和研究,尤其是对文库产品有着深度理解,因为我自己也一直在运营文库项目。下面是我站在一个普通站长角度给出的一些经验,如果你也想做一个文库网站或文库平台,需要选择一套文库系统产品,请从下面几点出发去做对比,最终做出正确选择。
选择文库系统的时候需要重点注意和对比哪些东西?
|
数据采集 存储 数据可视化
|
存储 监控 安全
数据人必知!认识数据“四种”分类“五大”价值,帮企业找到核心数据
在大数据时代,企业首先要做的是收集大量数据,但收集数据并非仅是把收集过来的数据放到数据存储平台里面那么简单,更重要的是对数据进行分类、加工及管理。
数据人必知!认识数据“四种”分类“五大”价值,帮企业找到核心数据
|
数据采集 存储 监控
电商项目之数据治理流程分析|学习笔记
快速学习电商项目之数据治理流程分析
179 0
电商项目之数据治理流程分析|学习笔记
|
安全 区块链
区块链溯源二十五史项目资源研究工程
一份理解,一份信任。凡事多向积极的一面靠拢,你会感觉生活并不像我们想象的那么糟糕!艰难险阻或陷入困境,常人难以坚持下去而放弃或逃避时,有作为的人往往能够挺住,挺过去就是胜者。任何事的成功,往往在于再坚持一下的努力之中!微信最高人民法院系统最高法院17号继续立二案操作成功,等待彻底了结利民利国。继续联系最高法院二案推到哪部受理情况省得到金融机构到处乱抢霸先下手贪梦变态公权私有化颠覆?深刻认识抢霸合法化利益链乱象颠覆人类安全有几百年几千年历史,疯子与傻子合作学术理论研究。https://help.tokenpocket.pro/cn/这是区块链溯源二十五史项目资源研究工程https://mp.we
104 0
区块链溯源二十五史项目资源研究工程
|
数据采集 存储 安全
阿里云数据治理系列(一):治理项目启动前的必答三问
近一年以来,越来越多的企业在考虑或正在启动数据治理的项目。作为在该领域从业多年的人士,也常会被咨询:数据治理不是很多年前就有的概念么?为什么忽然很多企业都在提及?是不是新瓶装旧酒?和数据中台之间是什么关系?本文中,小编将通过三个核心问题,帮助大家清晰上述疑问,更重要的是,这三个问题,也是一家企业启动数据治理项目前必须要想清楚的三个问题。
阿里云数据治理系列(一):治理项目启动前的必答三问