数据资产目录建设之数据分类全解(上)

简介: 数据资产目录建设之数据分类全解(上)

数据治理“洗澡论”

其实他们之前做过数据一轮数据资产盘点,做了一个分类,也挂到系统上了,但是后来就没有后来了。治理做一半,等于啥也没干。我之前在群里开了一个玩笑,数据治理这种事情,就跟洗澡一样,首先得勤快点洗。一天不洗澡,身上就臭了。另外,标准也很重要,南方和北方对“洗干净”的定义不一样。南方洗澡的时候,只要泡泡冲干净,就算洗干净了。北方洗澡的时候,身上不搓下来二斤泥都不叫洗干净了。

还有,洗澡得全面,有些人洗澡不洗头还说得过去,但是洗澡只洗左胳膊,这算咋回事?最后,洗完澡得维护,水得擦干啊,衣服得换干净的,不要到外面踩泥巴,要讲卫生啊!但是很多人认为数据治理就是弄个项目就完事的。这就像是中世纪的欧洲,一生就洗三次澡,出生一次,结婚一次,入殓一次。其他时间都靠香水度日所以数据治理不是立一个项目就完事的,要么在家弄个浴室,要么定期去外面大众浴室,条件好可以再叫个搓澡的师傅,上个奶盐。

数据分类原则

这不,跟长时间没洗澡一样,长“数据虱子”了,各种指标爆炸数据质量低下等问题让数据部门的彭友非常难受,所以他们又要开始做数据治理了。首先要做的就是数据资产盘点,建立数据资产目录。盘点的时候好说,就是各种整理呗。但是到建立数据资产目录的时候就傻眼了,他们先是按照自己的理解整了一版目录结构。但是在把数据资产装进去的时候就发现有些数据资源不属于现有的任何一个分类,然后又来调整,但是一会儿又发现有些数据资源放这里也行,放在那里也行,这就蒙圈了

这是因为没有把握住数据分类的原则。具体可以分为:

1、全量:能够容纳组织全量数据资产;

2、系统:数据分类必须系统化、体系化,层次清晰、逻辑鲜明,形成具有隶属和并列关系的分类体系,展示数据之间的联系和区别;

3、规范:目录名称要能准确的表达该类目的实际内涵和外延,在整个目录中保持规范;

4、唯一:目录体系内,各自界限分明,尽可能保证不重复、不交叉、相互独立且唯一;
5、稳定可扩展:建立的数据分类要保持一定的稳定性,保持一段时间内的可持续使用,并保留可扩展的余地。

数据分类方法

数据分类其实来源于信息分类法,一共有三种:线分类法、面分类法、混合分类法。线分类法:简单来说,就是将数据按选定的若干个属性或特征,逐次分为若干层级, 每个层级又分为若干类别。同一分支的同层级类别之间构成并列关系,不同层级类别之间构成隶属关系。同层级类别互不重复,互不交叉。线分类法适用于针对一个类别只选取单一分类维度进行分类的场景。最典型的线分类法就是生物分类系统,有一个学科专门研究这个,叫“生物分类学”。

你仔细看看上面的图,就知道线分类法有很大的局限:一个分类只能描述单一的逻辑复杂一点就没法弄了,比如集团中有好几个不同的业态...面分类法:就是把数据依据各种属性或特征,分成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别。还可以将某个面中的一种类别和另外的一个或多个面的一种类别组合在一起,可以组成一个复合类别。

比如服装,有材料、颜色、款式等多个面,可以自由搭配组成任意内容。下面这个例子则是螺丝的面分类法,可以分为材料、直径、钉头、表面处理:

面分类法是并行化分类方式,同一层级可有多个分类维度。面分类法适用于对一个类别同时选取多个分类维度进行分类的场景。

混合分类法:顾名思义,就是线分类+面分类结合咯。一般来说,还是得以某一个方法为主,另外一个为辅。这下就能集合两种方式的优点,规避它们各自的缺点了。比如用面分类法解决多业态的问题,再用线分类法细化;或者用线分类法搞定前面几层,再用面分类法进行细化。

数据分类的层次关系

会后,彭友还找我要PPT。讲真,不是老彭我小气,关键是我还真没有专门为这个事情做一个PPT。因为这些内容其实早就有很全的指导了,比如《证券期货数据分类分级指南》里就很全:

这张图把业务、数据和数据表现形态之间的关系表现的很清楚。我们需要从业务、数据和形态三个视角对数据分类进行理解。其中,最先要了解的,就是业务。业务可以按条线和子类进行拆分,就算是集团公司,也能拆的很清晰。然后从业务角度,向下再进行拆解,从数据角度进行分类。所以数据角度的第一个层级应该是业务主题域,而不是纯粹的数据角度

数据分类应该从主题域不断细分,直到最细颗粒度。一般来说,在数据资产目录里,是要能看到详细的样例数据,并能申请API访问权限的。在这个时候,我们需要对数据进行分级,便于进行权限分配和安全管控。

最下面,其实不是数据的分类,而是数据的展示形态。数据最终是要在系统中用业务流程、数据查询、报表分析、大屏展示等各种形态利用起来的。

小结

数据分类分级看上去很简单,但是其中的道道还是蛮多的,一旦没弄好,会影响后续很多的事情。也不知道你对此感不感兴趣啊?

相关文章
|
机器学习/深度学习 算法
集成学习发展史
集成学习发展史
870 0
|
SQL 存储 数据采集
【技术分享】元数据与数据血缘实现思路
【技术分享】元数据与数据血缘实现思路
7749 0
|
10月前
|
缓存 监控 前端开发
如何监控浏览器缓存的命中率?
如何监控浏览器缓存的命中率?
487 57
|
2月前
|
SQL 存储 机器学习/深度学习
智能问数技术路线对比
本文横向对比2026年主流智能问数技术路线:字节(宽表+NL2SQL)、帆软(ChatBI升级)、京东(预制指标)、Palantir/UINO(本体+智能体)。分析各路线在准确率、泛化性、人力投入、实时性等维度的优劣,助力企业基于业务场景精准选型。(239字)
|
4月前
|
数据采集 安全 数据管理
一文讲清数据治理体系:数据标准、元数据管理、主数据管理、数据质量管理、数据安全、数据资产管理
本文分享企业数据治理五大核心模块的实战经验:从统一数据标准、管理元数据与主数据,到保障数据质量、安全及资产化运营,提供可落地的解决方案。附数据化建设知识地图与工具,助力团队提升数据可信度与使用效率。
|
运维 安全 网络安全
数据资产目录建设之数据分类全解(下)
数据资产目录建设之数据分类全解(下)
|
SQL Java 数据库连接
Pagehelper超级好用的分页插件
Pagehelper超级好用的分页插件
2863 0
|
编解码 安全 计算机视觉
FFMPEG常用命令 音视频合并
FFMPEG常用命令 音视频合并
1155 2
|
数据可视化
R可视乎|主成分分析结果可视化
R可视乎|主成分分析结果可视化
425 0