谈谈主数据建设过程中历史数据清理策略和方法

简介: 菜买回来后,我们就要根据菜品的需要对它们进行处理了,但无论如何处理,在此之前们都需要对它们先进行清洗一下,将上面的脏东西诸如泥土、农药、血水等清洗掉。

前言:从洗菜看数据清理

菜买回来后,我们就要根据菜品的需要对它们进行处理了,但无论如何处理,在此之前们都需要对它们先进行清洗一下,将上面的脏东西诸如泥土、农药、血水等清洗掉。数据分析也是一样,在数据获取到了之后,我们需要进行的是数据清理;主要是解决如:数据损坏、不一致、不准确、不相关、脏数据、不标准化、不完整……等问题,将数据变干净,方便后续处理、分析、呈现。

9b0a34e65f92eb401cfbea821f482094.jpg

一、清理原则

  • 清理主数据为已使用主数据编码,对于未使用的主数据编码采取停用等方式。
  • 各专业系统中基础编码数据,保留原编码规则,不进行编码改动,仅完善维护相关属性值。
  • 属性值不完整的编码数据,按照其主数据规范标准进行补充完善,使其完全符合集团及下属单位主数据标准化的要求。
  • 清理要覆盖全部的数据,保证数据清理的彻底性。

二、清理策略

   1、初步标记

   由主数据项目组将各专业信息系统中导出的主数据进行初步清理、标记工作。根据新的分类标准体系,将各专业系统中的主数据按照保留、停用等状态标记,提示给下一步做具体清理工作的人员,以指导数据清理工作。

   2、分类清理

   对主数据采用分类清理的策略,首先制定出清理收集模板,其中材料主数据每一个小类制定一个模板,在每一个模板上设置必须项及说明;按照清理模板要求的属性规范进行填写收集。

   3、先分后合

   数据清理人员的工作内容,按主数据的条数分工,其中材料主数据原则上一个小类项下的所有材料主数据由一人负责;检查无误的主数据提交到集团及下属单位主数据项目组,由项目组统一合并汇总,完成数据的导入。

   4、分段清理

   集团及下属单位专业信息系统正处于运行阶段,专业信息系统不允许在主数据清理过程中停止运行,由于主数据清理工作的工作量比较大,延续的时间比较长,为了合理、科学的完成数据清理工作,因此将主数据的清理工作分为三个阶段来执行:

    第一阶段:清理当前截止时间前的主数据,时间2个月。

   第二阶段:清理上次清理时间到当前截止时间之间的主数据,时间0.5个月。

   第三阶段:在第二阶段清理开始以后的主数据申请由集团及下属单位统一记录,随时进行数据清理,并同步到集团及下属单位主数据编码库中,主数据系统上线前,完成所有的清理工作。

   5、检查反馈

   检查在数据清理过程中是一项非常重要的工作,定期检查能够保证数据清理的质量,根据检查情况制定出问题的解决方案,并及时反馈给数据清理人员,避免盲目清理数据。

   专业检查的频率采用先紧后松的方式,数据清理开始阶段每周检查一次,后调整为每两周一次,以保证清理数据的质量。

三、清理步骤

   1、数据清理培训

   由集团主数据项目组的数据清理顾问,对集团及下属单位数据清理组、下属单位数据清理组所有的成员进行集中的数据清理工作培训;下发工作计划以及工作要求(数据收集模板同时下发)。

   2、专业系统主数据导出

   由各专业系统服务方的人员,按照清理范围内的要求将各专业系统中的主数据完整的导出,形成Excel文件,并将该文件提交给集团及下属单位数据清理负责人进行数据完整性检查,检查完毕后将文件提交给集团主数据项目组方数据清理顾问。

   3、数据初步处理

   由集团主数据项目组的数据清理顾问,将提交上来的主数据Excel文件,根据新的主数据属性标准进行标记,标记分为如下两种:

  1. 保留:指该主数据编码将继续保留,并导入到主数据管理系统。
  2. 停用:指该主数据编码将在专业信息系统中停用,不需要导入到主数据管理系统。

   此标记只是给数据清理人员作为参考,最终以数据清理人员的标记为准。

   4、主数据清理分工

   主数据项目组数据清理负责人,参考数据清理人员专业特长,将各专业系统主数据Excel文件的内容按总条数进行平均分工,其中材料主数据原则上一个小类项下的内容分配给一个数据清理人员;每一位数据清理人员对自己负责范围内数据质量和清理进度负责。

   5、主数据清理细化

   数据清理人员对负责范围内的主数据进行清理工作,清理工作主要包括如下两项内容:

  1. 在各专业系统主数据Excel文件上重新标记原专业系统主数据编码处理状态(保留、停用),并标记“是否转入主数据管理系统”。
  2. 将需要转入到主数据管理系统的主数据,按主数据管理系统收集模板进行数据整理收集。

3ccac57d0c485a8e193180f158e79562.png

6、主数据清理结果检查

   清理结果的检查分为三部分:

   1、专业检查:由集团及下属单位数据清理组负责。检查专家对数据的质量进行检查核对,有问题的记录并及时反馈给数据清理人员。

   2、数据导入主数据管理系统检查: 由集团主数据项目组数据清理组负责。数据清理顾问经过业务检查通过的数据,进行格式内容方面的检查,检查无误后导入主数据管理系统,有问题记录并直接反馈给数据清理人员。导入完毕的文档进行归档处理,不允许再修改。

   3、主数据管理系统内数据检查:由主数据管理系统项目组负责。负责检查导入到主数据管理系统中的主数据,检查主数据是否在系统中正常显示,是否准确对应到了元属性。发现问题记录并直接反馈给集团主数据项目组数据清理顾问。

   4、检查周期:一周检查一次。

   7、专业信息系统的主数据处理

   由各专业系统服务方技术人员负责,根据原各专业系统主数据文件处理状态为“停用”的标记,将专业信息系统中的主数据批量进行限制操作。

四、综述

数据清洗是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节。有人说一个分析项目80%的时间都是在清洗数据,这听起来有些匪夷所思,但在实际的工作中确实如此。数据清洗的目的有两个,第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
Java Android开发 图形学
unity 调用android的震动
在unity中调用震动一般有两种方式: 1.使用unity自带的 Handheld.Vibrate();优点:方便、简单缺点:无法控制震动的频率 2.自己导入jar包到unity中优点:便于后期的调节震动的频率缺点:如果是初步接触android studio可能比较麻烦 这次就不说Handheld.Vibrate(),直接调用就ok了。
3708 0
Mockito框架抛出NullPointerException
一文详细讲解Mockito框架是怎么抛出NullPointerException的整个过程和解决方式。
6650 0
|
3月前
|
数据采集 数据可视化 安全
终于有人把数据治理讲明白了
在数字化转型浪潮下,企业常面临数据混乱、标准不一等问题。本文深入浅出解析“数据治理”核心概念,探讨如何通过“拉式”与“推式”两种策略,构建高效、可持续的数据管理体系,提升数据质量与应用价值,助力企业实现精准决策与业务创新。
|
弹性计算 Apache 云计算
产品动态丨阿里云计算巢月刊-2025年第4期
让优秀的企业软件生于云、长于云
|
3月前
|
数据采集 存储 监控
数据治理怎么做?一文讲清数据治理全流程
数据治理是企业系统化管理数据的核心战略,涵盖数据质量、安全、合规与价值挖掘。通过明确责任、制定标准、优化流程,确保数据全生命周期可控、可信、可用,助力企业提升决策效率、降低风险,并释放数据潜在价值。
数据治理怎么做?一文讲清数据治理全流程
|
数据采集 数据可视化 数据挖掘
数据清洗(Data Cleaning)
数据清洗(Data Cleaning)
856 1
|
数据采集 XML 数据挖掘
CDGA|数据治理新视角:清洗数据,让数据质量飞跃提升
在数据治理中,标准化处理和确保数据的可溯源性是两个重要的方面。通过标准化处理,我们可以将复杂的数据转化为易于管理和分析的形式;通过确保数据的可溯源性,我们可以验证数据的准确性和可靠性。这两个方面共同构成了数据治理的基石,为数据分析和挖掘提供了有力的支持。因此,我们应该重视数据治理工作,不断完善和优化数据治理体系,以应对日益复杂的数据挑战。
|
NoSQL 网络安全 Redis
用python安装redis并设置服务自启
用python安装redis并设置服务自启
205 0
|
人工智能 PyTorch 测试技术
Py之fvcore:fvcore库的简介、安装、使用方法之详细攻略
Py之fvcore:fvcore库的简介、安装、使用方法之详细攻略
Py之fvcore:fvcore库的简介、安装、使用方法之详细攻略
|
弹性计算 测试技术 固态存储
【ECS测评大赛】ECS C5全方位对比测评、服务搭建(含Alinux 3)
本篇采用AWS对阿里云进行对比参照,将基于用户实例控制台,实例性能各方面参数进行对比,以及整体服务运行对服务器资源消耗情况,并且您还可以看到分别使用CentOS 7和Alinux 3分别搭建LAMP,LNMP环境,在后面会展现出常规用户使用案例,如wordpress博客搭建,Discuz!论坛搭建,KodCloud系统搭建,NextCloud云盘搭建,私人NAS搭建,极狐GitLab 一体化 DevOps 平台搭建 对应的阿里云社区视频为:https://developer.aliyun.com/live/249082,只涉及部分服务搭建
40179 27
【ECS测评大赛】ECS C5全方位对比测评、服务搭建(含Alinux 3)