前言:从洗菜看数据清理
菜买回来后,我们就要根据菜品的需要对它们进行处理了,但无论如何处理,在此之前们都需要对它们先进行清洗一下,将上面的脏东西诸如泥土、农药、血水等清洗掉。数据分析也是一样,在数据获取到了之后,我们需要进行的是数据清理;主要是解决如:数据损坏、不一致、不准确、不相关、脏数据、不标准化、不完整……等问题,将数据变干净,方便后续处理、分析、呈现。
一、清理原则
- 清理主数据为已使用主数据编码,对于未使用的主数据编码采取停用等方式。
- 各专业系统中基础编码数据,保留原编码规则,不进行编码改动,仅完善维护相关属性值。
- 属性值不完整的编码数据,按照其主数据规范标准进行补充完善,使其完全符合集团及下属单位主数据标准化的要求。
- 清理要覆盖全部的数据,保证数据清理的彻底性。
二、清理策略
1、初步标记
由主数据项目组将各专业信息系统中导出的主数据进行初步清理、标记工作。根据新的分类标准体系,将各专业系统中的主数据按照保留、停用等状态标记,提示给下一步做具体清理工作的人员,以指导数据清理工作。
2、分类清理
对主数据采用分类清理的策略,首先制定出清理收集模板,其中材料主数据每一个小类制定一个模板,在每一个模板上设置必须项及说明;按照清理模板要求的属性规范进行填写收集。
3、先分后合
数据清理人员的工作内容,按主数据的条数分工,其中材料主数据原则上一个小类项下的所有材料主数据由一人负责;检查无误的主数据提交到集团及下属单位主数据项目组,由项目组统一合并汇总,完成数据的导入。
4、分段清理
集团及下属单位专业信息系统正处于运行阶段,专业信息系统不允许在主数据清理过程中停止运行,由于主数据清理工作的工作量比较大,延续的时间比较长,为了合理、科学的完成数据清理工作,因此将主数据的清理工作分为三个阶段来执行:
第一阶段:清理当前截止时间前的主数据,时间2个月。
第二阶段:清理上次清理时间到当前截止时间之间的主数据,时间0.5个月。
第三阶段:在第二阶段清理开始以后的主数据申请由集团及下属单位统一记录,随时进行数据清理,并同步到集团及下属单位主数据编码库中,主数据系统上线前,完成所有的清理工作。
5、检查反馈
检查在数据清理过程中是一项非常重要的工作,定期检查能够保证数据清理的质量,根据检查情况制定出问题的解决方案,并及时反馈给数据清理人员,避免盲目清理数据。
专业检查的频率采用先紧后松的方式,数据清理开始阶段每周检查一次,后调整为每两周一次,以保证清理数据的质量。
三、清理步骤
1、数据清理培训
由集团主数据项目组的数据清理顾问,对集团及下属单位数据清理组、下属单位数据清理组所有的成员进行集中的数据清理工作培训;下发工作计划以及工作要求(数据收集模板同时下发)。
2、专业系统主数据导出
由各专业系统服务方的人员,按照清理范围内的要求将各专业系统中的主数据完整的导出,形成Excel文件,并将该文件提交给集团及下属单位数据清理负责人进行数据完整性检查,检查完毕后将文件提交给集团主数据项目组方数据清理顾问。
3、数据初步处理
由集团主数据项目组的数据清理顾问,将提交上来的主数据Excel文件,根据新的主数据属性标准进行标记,标记分为如下两种:
- 保留:指该主数据编码将继续保留,并导入到主数据管理系统。
- 停用:指该主数据编码将在专业信息系统中停用,不需要导入到主数据管理系统。
此标记只是给数据清理人员作为参考,最终以数据清理人员的标记为准。
4、主数据清理分工
主数据项目组数据清理负责人,参考数据清理人员专业特长,将各专业系统主数据Excel文件的内容按总条数进行平均分工,其中材料主数据原则上一个小类项下的内容分配给一个数据清理人员;每一位数据清理人员对自己负责范围内数据质量和清理进度负责。
5、主数据清理细化
数据清理人员对负责范围内的主数据进行清理工作,清理工作主要包括如下两项内容:
- 在各专业系统主数据Excel文件上重新标记原专业系统主数据编码处理状态(保留、停用),并标记“是否转入主数据管理系统”。
- 将需要转入到主数据管理系统的主数据,按主数据管理系统收集模板进行数据整理收集。
6、主数据清理结果检查
清理结果的检查分为三部分:
1、专业检查:由集团及下属单位数据清理组负责。检查专家对数据的质量进行检查核对,有问题的记录并及时反馈给数据清理人员。
2、数据导入主数据管理系统检查: 由集团主数据项目组数据清理组负责。数据清理顾问经过业务检查通过的数据,进行格式内容方面的检查,检查无误后导入主数据管理系统,有问题记录并直接反馈给数据清理人员。导入完毕的文档进行归档处理,不允许再修改。
3、主数据管理系统内数据检查:由主数据管理系统项目组负责。负责检查导入到主数据管理系统中的主数据,检查主数据是否在系统中正常显示,是否准确对应到了元属性。发现问题记录并直接反馈给集团主数据项目组数据清理顾问。
4、检查周期:一周检查一次。
7、专业信息系统的主数据处理
由各专业系统服务方技术人员负责,根据原各专业系统主数据文件处理状态为“停用”的标记,将专业信息系统中的主数据批量进行限制操作。
四、综述
数据清洗是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节。有人说一个分析项目80%的时间都是在清洗数据,这听起来有些匪夷所思,但在实际的工作中确实如此。数据清洗的目的有两个,第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。