概述| 学习笔记

简介: 快速学习概述。

开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):概述】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/921/detail/15629


概述

 

内容介绍

一、数据清理

二、数据集成

三、数据转换

四、数据约简

 

在这一章中,我们将向大家介绍预处理的主要步骤。数据清理。数据集成,数据转换和数据约简。

我们首先来看一下数据预处理的主要步骤。数据预处理的主要步骤包括数据清理,数据集成,数据转换和数据约简。

 

一、数据清理

数据清理主要是因为我们现实世界中的数据是将数据。在张数据上面进行数据挖掘。

会得到一些错误的数据挖掘结果。因此我们要通过数据清理。将数据变成干净的数据。数据清理主要是。处理错误数据。平滑噪音识别,或者是移除噪音点。并且解决数据的不一致问题。


二、数据集成

数据集成是将来源于多个不同数据源的易购,不同特点性质的数据集中在一起。

 

三、数据转换

数据转换主要是将数据转换成适合数据挖掘任务的数据。数据转换主要是包括数据的规范化和数据的离散化。数据约简主要是通过原始数据集得到一个规模较小的数据集。使得在这个规模较小的数据集上,得到的数据挖掘结果和在原始数据集上得到的数据挖掘结果几乎相同。

 

四、数据约简

数据约简的策略主要包括维度,越结数量约简和数据压缩。关于数据预处理的主要步骤,介绍到这里。

相关文章
|
5月前
|
算法 Linux C语言
RSIC-V“一芯”学习笔记(一)——概述
RSIC-V“一芯”学习笔记(一)——概述
|
7月前
|
SQL Java 关系型数据库
JAVAJDBC概述
JAVAJDBC概述
43 0
|
存储 机器学习/深度学习 数据挖掘
FusionInsight概述
FusionInsight概述
331 0
|
程序员 Linux C语言
01 C++ - 概述
01 C++ - 概述
78 0
|
存储 缓存 移动开发
计算机网路学习笔记(I)——概述
计算机网络是一门重要对的计算机基础课程,无论你是读研还是工作都要求我们必须了解并掌握基础知识,接下来我将带领大家一起学习计算机网络这门课程,我也将会更新自己学习408课程的学习笔记,我们一起学习和进步。
133 0
|
存储 缓存 JSON
Dockerflie概述
Dockerflie概述
142 0
|
监控 数据可视化 Java
推荐系列(二):生成候选者概述
生成候选者概述 在上一节介绍了推荐系统的基本框架: 可以看到,生成候选人(generate candidate)是推荐的第一阶段,也被称作retrieve。给定查询,系统生成一组相关候选者。下表显示了两种常见的候选生成方法: 类型 定义 实例 基于内容的过滤 使用项目之间的相似性来推荐与...
1384 0
|
机器学习/深度学习 人工智能 算法