数据清洗的主要应用领域包括数据仓库与数据挖掘、数据质量管理。
(1)数据仓库与数据挖掘。数据清洗对于数据仓库与数据挖掘应用来说,是核心和基础,它是获取可靠、有效数据的一个基本步骤。数据仓库是为了支持决策分析的数据集合,在数据仓库领域,数据清洗一般是应用在几个数据库合并时或者多个数据源进行集成时。例如,指代同一个实体的记录,在合并后的数据库中就会出现重复的记录。数据清洗就是要把这些重复的记录识别出来并消除它们。数据挖掘是建立在数据仓库基础上的增值技术,在数据挖掘领域,经常会遇到挖掘出来的特征数据存在各种异常情况,如数据缺失、数据值异常等。对于这些情况,如果不加以处理,就会直接影响到最终挖掘模型的使用效果,甚至会使得创建模型任务失败。因此,在数据挖掘过程中,数据清洗是第一步。
(2)数据质量管理。数据质量管理贯穿数据生命周期的全过程。在数据生命周期中,可以通过数据质量管理的方法和手段,在数据生成、使用、消亡的过程里,及时发现有缺陷的数据,然后借助数据管理手段,将数据正确化和规范化,从而达到符合要求的数据质量标准。总体而言,数据质量管理覆盖质量评估、数据去噪、数据监控、数据探查、数据清洗、数据诊断等方面,而在这个过程中,数据清洗是决定数据质量好坏的重要因素。