数据治理之分类分级-(1)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 2022年的一月和二月,我花了大量时间来学习研究分类与分级这个课题,但是并未找到答案。我把分类与分级的问题,定义为一个社会知识的问题。因为分类的问题相当广泛,而且也相当复杂,即便是一个科学家也只能对自己小范围内的数据进行有限的分类。而我们做数据中台数据治理项目交付,面对的数据是非常广泛的,全社会的各种各样的数据都可能是我们要分类的目标。要想把类分好,就要对需要分类的数据及其业务含义、适用场景等都有深入的了解。而我,每次即便是看到某一小类数据都非常的头痛,因为我对这个世界的认知太单薄。用一个成语“蚍蜉撼树”来形容我现在想做的事情,再恰当不过了。

     2022年的一月和二月,我花了大量时间来学习研究分类与分级这个课题,但是并未找到答案。我把分类与分级的问题,定义为一个社会知识的问题。因为分类的问题相当广泛,而且也相当复杂,即便是一个科学家也只能对自己小范围内的数据进行有限的分类。而我们做数据中台数据治理项目交付,面对的数据是非常广泛的,全社会的各种各样的数据都可能是我们要分类的目标。要想把类分好,就要对需要分类的数据及其业务含义、适用场景等都有深入的了解。而我,每次即便是看到某一小类数据都非常的头痛,因为我对这个世界的认知太单薄。用一个成语“蚍蜉撼树”来形容我现在想做的事情,再恰当不过了。

我对自己看过的相关的分类与分级标准和规范都不满意(缺乏对实际工作的指导意义),我原本希望从目前的资料中找到一种通用的方法,能给日常工作提供一些指导性的方向。虽然,在这个问题上我没有能给自己一个想要的答案。但是,我仍然学习到了很多相关的知识,可以跟大家分享。也希望能有更多的人能参与到这个课题里来,让这个问题有更多的答案或者是发展。

1.  分类概述

数据分类就是要对一些概念进行定义与区分。分类有两种方法,线分类法和面分类法。

线分法就是很多事物都有共同的属性,比如人都有性别,分男女,然后男女再往下分个老中青。(线分类法:线分类法也陈称等级分类法。线分类法按选定的若干属性(或特征)将分类对象逐次地分为若干层级,每个层级又分为若干类目。)这种方法很容易理解,概念清晰,只是很多时候事物复杂到分不下去了,所以,很多分类都没完全用这个方法。然后分出来的类,其实你可能也很难理解,或者觉得混乱,这种不好理解方法就是面分类法。

面分类法也称平行分类法,它是把拟分类的商品集合总体。根据其本身固有的属性或特征,分成相互之间没有隶属关系的面,每个面都包含一组类目。将某个面中的一种类目与另一个面的一种类目组合在一起,即组成一个复合类目。 面分类法具有类目可以较大量地扩充、结构弹性好、不必预先确定好最后的分组、适用于计算机管理等优点,但也存在不能充分利用容量、组配结构太复杂、不便于手工处理等缺点。

面分类法则将整形码分为若干码段,一个码段定义事物的一重意义,需要定义多重意义就可以采用多个码段。这种代码的数值当然也可以在数轴上找到表达,然而,一根数轴却只能约束一重意义上父类与子类的从属关系,多重意义的约束就要用多根数轴来实现,也就是说一个码段对应一根数轴。面分类是若干个线分类的合成。

基于这一理解,线分类法应该属于1维分类法,面分类法则为2维或多维的分类法。谁都想这个世间简单,但是谁都说这个世界复杂。我多么希望我有一双慧眼能简单的看清这个世界,然后来给大家show一下我的分类思考。

参考百度百科:

线分类法

https://baike.baidu.com/item/%E7%BA%BF%E5%88%86%E7%B1%BB%E6%B3%95/2876602?fr=aladdin

 

面分类法

https://baike.baidu.com/item/%E9%9D%A2%E5%88%86%E7%B1%BB%E6%B3%95/9159403?fr=aladdin

我个人从特别宏观的概念上对这个世界上日常理解的数据相关的所有的概念都可以被分成两类,第一类是人相关的,第二类是组织相关的。比如我在动物园看了一个熊猫,这事就是我跟动物园这“个人”和“组织”动物园的事情。这个世界上没有什么数据是跟“个人”和“组织”无关的。我甚至思考过在太平洋某片公海上的海底火山爆发了,或者几万光年外那个星球火山爆发了,这根谁相关呢?没人关注到也没有组织去管理就没有信息(数据)被记录,所以,这玩意存在不存。关键在于“个人”和“组织”是否关注,关注到了就会产生信息和数据。这个一分为二的分类挺宏观,我认为挺有说服力。

这里面其实也涉及到一个我之前在数据领建模域接触过的一个概念“当事人”。在teradata的金融数仓模型中有个主题叫做party主题,中文翻译为“当事人”主题。这个概念就是指银行这个机构涉及金融这个活动相关或者感兴趣的人或者组织机构,是个宽泛的概念。初期理解的时候,其实很别扭,把人和组织机构搞一起太扯了,但是现在我更多的时候是希望把这两个搞到一起。比如机动车驾驶证,所有者不是个人就是一个组织机构,还有银行的账户,有对公和对私之分。本质上,对于很多场景这确实是一类事物。所以,借用了法律上的这个“当事人”用词,我可以起诉某个公司,也可能被公司起诉,这两个角色是可以互换的,只是有区别。确定一致的是,人和组织在这种场合都是“当事人”。

2.  分类与概念

2.1. 组织

2.1.1.  组织的概念

个人很好理解和区分的,这个概念指我们自己,你我他都是。组织这个概念就有点难了,组织离我们很近好像又很难搞清楚。尤其是在实际的数据中,接触到的组织都是一些部分。比如我是个个体户,我是个组织么?组织总得搞2个人以上吧?我跟我老婆孩子组成了一个家庭,这个应该算一个家庭组织,古代这可是一个最小规模的劳动生产单位。但是,谁认我们这个家庭是一个组织?户口本算不算,还是说要找个机构给我们派发一个家庭组织证?(未来中国要是按照家庭为单位来纳税,是不是怎么也得给个家庭证号码。)挺困惑,我带着找个问题很多年了,探索过几次,都是挫折而归。我在最近做数据分类分级的工作的时候又遇到了这个问题,不过现在我多少感觉可以拿出来说一说了。(我目前的认识是人本身不是一个组织,但是人可以搞出来一个组织,个体户就是人要经营搞出来的。)

下面是百度百科的关于组织的概念。

组织

从广义上说,组织是指由诸多要素按照一定方式相互联系起来的系统。从狭义上说,组织就是指人们为实现一定的目标,互相协作结合而成的集体或团体,如党团组织、工会组织、企业、军事组织等等。狭义的组织专门指人群而言,运用于社会管理之中。在现代社会生活中.组织是人们按照一定的目的、任务和形式编制起来的社会集团,组织不仅是社会的细胞、社会的基本单元,而且可以说是社会的基础。

从管理学的角度,所谓组织(Organization),是指这样一个社会实体,它具有明确的目标导向和精心设计的结构与有意识协调的活动系统,同时又同外部环境保持密切的联系。

https://baike.baidu.com/item/%E7%BB%84%E7%BB%87/10200?fr=aladdin

组织机构

组织机构是指组织发展、完善到一定程度,在其内部形成的结构严密、相对独立,并彼此传递或转换能量、物质和信息的系统。起源于人类的共同劳动,随着人类社会的发展,尤其是国家的诞生日趋完备、成熟。其任务是协调各种关系,有效地运用每个组织成员的才智,充分发挥组织系统的力量,达成团体的目标。

https://baike.baidu.com/item/%E7%BB%84%E7%BB%87%E6%9C%BA%E6%9E%84/10765101?fr=aladdin

非正式组织

是组织种类之一,与正式组织相对。是指以情感、兴趣、爱好和需要为基础,以满足个体的不同需要为纽带,没有正式文件规定的、自发形成的一种开放式的社会组织。

这种组织一旦形成,也会产生各种行为规范,以制约非正式组织中的成员。这种规范与正式组织的目标可能一致,也可能不一致。由于非正式组织的主要目标,在于满足其成员的心理需要,所以这种组织也叫做心理-社会系统。例如,集邮组织、绘画组织、 技术革新组织、业余文体活动组织等,都属于非正式组织范畴。

https://baike.baidu.com/item/%E9%9D%9E%E6%AD%A3%E5%BC%8F%E7%BB%84%E7%BB%87/9723424?fr=aladdin

从以上概念上来看,组织更广义,而组织机构相比起来就更狭义,可能看作子类关系。我跟几个同事组成了团队内部的一个数据治理小组,关注数据治理,这就可以被叫做一个组织。我自己搞了一个虚拟的组织,以这个组织的名义发表一些自己的看法,这看起来也是一个组织。但是组织机构应该是组织发展、完善到一定程度,才能被称为组织机构。最简单的就是我刚才举例的这两个组织的概念,一定不是组织机构。组织机构是一个“正式组织”,而组织中的另一部分就是“非正式组织”。

所以,我把组织分为“组织机构”+“非正式组织”。

我对组织的概念的理解不是来自于自己发掘的知识,而是学习获得的。之所以我现在敢拿出来讲一下这个概念,是因为我最近有工作与分类分级相关。自然又涉及到了组织机构这个概念,所以,我搜集的资料中有了一个我认为信服的答案,所以,给大家show一下。

以下分类来自标准《GB/T 20091-2021.组织机构类型》

http://c.gb688.cn/bzgk/gb/showGb?type=online&hcno=8AB93B5BB63992082A2377C4409518B6

2.1.2.  组织的分类

相关概念

组织机构organization-法人和非法人组织的统称。

法人(legal entities)-具有民事权利能力和民事行为能力,依法独立享有民事权利和承担民事义务的组织。

营利法人(for-profit legal entities)-以取得利润并分配给股东等出资人为目的成立的法人。

非营利法人(non-profit legal entities)-为公益目的或者其他非营利目的成立,不向出资人、设立人或者会员分配所取得利润的法人。

特别法人(special legal entities)-机关法人、农村集体经济组织法人、城镇农村的合作经济组织法人、基层群众性自治组织法人的统称。

组织分类

image.png

这个分类其实并没有完善或者结束,这里只是采用了线分类法分了几级。再往下到更细节的类别,直到分完才是完美的结束。希望后续有其他人或者我能把这件事情继续搞下去,终有一日可以描述这个世界中的所有组织,能支撑所有组织的细节分类。不过进入更细,线分类法可能就不够用了,所以,至少目前这个阶段这个分类还是完美的线分类。

组织:

image.png

我之所以花了很多很多的时间去研究组织,一直在组织到底有哪些中搞不清楚。主要的原因是人这个生物很简单,但是人搞出来的这些组织真实的很复杂。要搞清这些组织在做什么,就是要搞清楚这个社会的运作方式。政府、企业、基金会什么的,看似离我们很近,但是又离我们很远。一般人根本不知道这些组织都是怎么运转的,就像你领结婚证的时候去民政局的婚姻登记处领,但是民政局是干什么的?除了发个结婚证,还在干什么。谁清楚?政府里面很多个部门都是用来做什么的?即便在各位所工作的单位,一般普通员工可能都不清楚各个部门的运转方式和运作细节(尤其是我这类)。

2.2.个人

个人这里很好理解,就是指个体。有个比较官方的名词,自然人。自然人即生物学意义上的人,是基于出生而取得民事主体资格的人(我的理解就是出生后活下来的人,死了不算,克隆的应该也不算,不够自然)。一般自然人和法人会被用来区分个人与个人创办的组织。回到个体户的例子里来,个体户不是一个法人组织,是一个非法人组织,是一个从事工商经营活动的组织。而个体户的经营者可以是一个组织,也可以是个人,因为家庭最小单位就是个人。

个人这里的分类的方法除了生物本身的特征,还会有比组织更加多种和随意的方式,比如:XXX是个“有钱人”,他在北京西城区有三处豪宅,互联网企业从事高管职位。这里面的职位、生活地区、资产是我们普通人(俗人)用来区分你我他的最常用的方法。也有美女、宅男这种分类,这种变幻多端的分类需按照在实际的场景来区分。例如找对象,一般就会按照相貌、身高、家庭、财产、爱好(实际上还有性别)把对象分为可谈和不可谈的两种。但是招聘,就会按照学校、学历、职业技能、工作经验来把人分为可招聘的和不可招聘的两种。在一般的数据库里面的个人会按照职业分工分为企业管理者、某技术部门员工、某生产部门员工,按照交易角色分为卖家、买家、中介,按照客户的资产分为钻石客户、铂金客户、黄金客户、白金客户。

相比于复杂的组织,个人可以只局限于生物体本身的一些特征来划分。不像组织搞清楚组织都有哪些,有什么区别都很费力。研究组织一定程度上是要搞清楚这个复杂的社会的运转方式,人还是纯粹一点,本着众生平等的原则,人其实可以直接按照通用的属性特征来划分。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
存储 数据采集 算法
数据分类分级-敏感数据识别工程实践
在《数据分类分级-结构化数据识别与分类的算法实践》这篇文章中讲到了结构化数据识别与分类的算法实践,那么这些算法能力如何以标准产品的方式落地,并帮助客户解决在数据分类分级过程中遇到的各种问题呢?本文将站在工程的视角,结合我们的思考和经验,从整体的大框架上介绍用九智汇数据分类分级产品敏感数据识别技术方案和能力,希望对大家有所帮助,想了解细节的,欢迎通过公众号联系进行线下沟通。
390 1
|
数据采集 运维 供应链
数据的分类和分级
数据的分类和分级
752 0
|
数据采集 算法 关系型数据库
数据分类分级实践难点
数据分类分级是开展数据全生命周期管理的基础,企业做好数据分类分级才能更好地去落实合规义务以及进行数据安全管控。今天,我们从数据分类分级落地实践的角度,来阐述企业在开展数据分类分级过程中的难点以及如何“破局”。
415 1
|
机器学习/深度学习 存储 算法
数据分类分级-结构化数据识别与分类的算法实践
本文分享了用九智汇数据分类分级产品开发过程中,对数据识别和数据分类中涉及的算法进行抽象、融合,以形成标准化产品所做的努力和积累的经验。当然,算法只是分类分级产品的一小部分,整个产品设计,工程实现,也是支撑标准化产品的关键,但是限于作者水平有限,本文只讨论算法相关的话题,欢迎大家关注公众号以了解更多信息。
187 1
|
SQL 存储 算法
数据分类分级-隐私管理与保护
仅仅进行数据分类分级以满足监管相对应的要求是远远不够的,数据分类分级工作是合规的起点而不是终点,今天我们就继续探讨数据分类分级如何在隐私管理与保护中发挥作用,以实现数据合规建设工作中更多的应用与价值。
148 0
|
安全
等级保护与分级保护的关系和区别
等级保护与分级保护既有联系又有区别:等级保护与分级保护本质的区别是等级保护适用的对象为非涉密信息系统,分级保护适用的对象为涉密信息系统。
125 0
|
存储 安全 数据管理
这个“2-3”的数据分类分级方法也许对你很有价值
当前,数据成为企业的生产要素参与分配,数据价值越发显得重要。
这个“2-3”的数据分类分级方法也许对你很有价值
|
云安全 机器学习/深度学习 存储
200多项分类+5级标准,金融行业数据分类分级最全模板来了
数据打标是整个数据安全治理工作中的“脏活”“累活”“难活”,同时又是数据价值挖掘和数据保护的必要基础。
1814 0
200多项分类+5级标准,金融行业数据分类分级最全模板来了
带你读《数据资产》第三章数据资产是新的资产类别3.2定义数据资产(二)
带你读《数据资产》第三章数据资产是新的资产类别3.2定义数据资产
带你读《数据资产》第三章数据资产是新的资产类别3.2定义数据资产(二)
|
存储 数据采集 大数据
带你读《数据资产》第三章数据资产是新的资产类别3.3 数据资产的属性和类别
带你读《数据资产》第三章数据资产是新的资产类别3.3 数据资产的属性和类别