数据清洗

简介: 【6月更文挑战第21天】数据清洗。

数据清洗的主要应用领域包括数据仓库与数据挖掘、数据质量管理。
(1)数据仓库与数据挖掘。数据清洗对于数据仓库与数据挖掘应用来说,是核心和基础,它是获取可靠、有效数据的一个基本步骤。数据仓库是为了支持决策分析的数据集合,在数据仓库领域,数据清洗一般是应用在几个数据库合并时或者多个数据源进行集成时。例如,指代同一个实体的记录,在合并后的数据库中就会出现重复的记录。数据清洗就是要把这些重复的记录识别出来并消除它们。数据挖掘是建立在数据仓库基础上的增值技术,在数据挖掘领域,经常会遇到挖掘出来的特征数据存在各种异常情况,如数据缺失、数据值异常等。对于这些情况,如果不加以处理,就会直接影响到最终挖掘模型的使用效果,甚至会使得创建模型任务失败。因此,在数据挖掘过程中,数据清洗是第一步。
(2)数据质量管理。数据质量管理贯穿数据生命周期的全过程。在数据生命周期中,可以通过数据质量管理的方法和手段,在数据生成、使用、消亡的过程里,及时发现有缺陷的数据,然后借助数据管理手段,将数据正确化和规范化,从而达到符合要求的数据质量标准。总体而言,数据质量管理覆盖质量评估、数据去噪、数据监控、数据探查、数据清洗、数据诊断等方面,而在这个过程中,数据清洗是决定数据质量好坏的重要因素。

目录
相关文章
|
6月前
|
数据采集 数据可视化 数据挖掘
数据清洗有什么方式
数据清洗有什么方式
|
2月前
|
数据采集 数据可视化 数据挖掘
如何进行有效的数据清洗?
如何进行有效的数据清洗?
104 3
|
2月前
|
数据采集 存储 数据可视化
数据清洗
数据清洗
69 1
|
6月前
|
数据采集 监控 数据挖掘
提高数据清洗效果的关键
【4月更文挑战第2天】提高数据清洗效果的关键
50 2
|
6月前
|
数据采集 Python
数据清洗是数据预处理的重要步骤
数据清洗是数据预处理的重要步骤
77 0
|
数据采集 数据挖掘 开发工具
数据分析|R-缺失值处理
数据分析|R-缺失值处理
155 1
|
数据采集 数据挖掘 Python
【Pandas数据分析5】数据清洗
【Pandas数据分析5】数据清洗
108 0
|
数据采集 SQL 数据挖掘
数据清洗_剪除反常数据|学习笔记
快速学习数据清洗_剪除反常数据
138 0
数据清洗_剪除反常数据|学习笔记
|
数据采集 消息中间件 NoSQL
数据预处理-数据清洗需求分析|学习笔记
快速学习数据预处理-数据清洗需求分析
531 0
数据预处理-数据清洗需求分析|学习笔记
|
数据采集 算法 Dubbo
数据清洗_数据转换|学习笔记
快速学习数据清洗_数据转换
161 0
数据清洗_数据转换|学习笔记