概述| 学习笔记

简介: 快速学习概述。

开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):概述】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/921/detail/15629


概述

 

内容介绍

一、数据清理

二、数据集成

三、数据转换

四、数据约简

 

在这一章中,我们将向大家介绍预处理的主要步骤。数据清理。数据集成,数据转换和数据约简。

我们首先来看一下数据预处理的主要步骤。数据预处理的主要步骤包括数据清理,数据集成,数据转换和数据约简。

 

一、数据清理

数据清理主要是因为我们现实世界中的数据是将数据。在张数据上面进行数据挖掘。

会得到一些错误的数据挖掘结果。因此我们要通过数据清理。将数据变成干净的数据。数据清理主要是。处理错误数据。平滑噪音识别,或者是移除噪音点。并且解决数据的不一致问题。


二、数据集成

数据集成是将来源于多个不同数据源的易购,不同特点性质的数据集中在一起。

 

三、数据转换

数据转换主要是将数据转换成适合数据挖掘任务的数据。数据转换主要是包括数据的规范化和数据的离散化。数据约简主要是通过原始数据集得到一个规模较小的数据集。使得在这个规模较小的数据集上,得到的数据挖掘结果和在原始数据集上得到的数据挖掘结果几乎相同。

 

四、数据约简

数据约简的策略主要包括维度,越结数量约简和数据压缩。关于数据预处理的主要步骤,介绍到这里。

相关文章
|
Kubernetes 关系型数据库 MySQL
k8s教程(基础篇)-入门及案例
k8s教程(基础篇)-入门及案例
1965 0
|
5月前
|
数据安全/隐私保护 C++ 索引
心得经验总结:控制台基础概念
心得经验总结:控制台基础概念
32 0
[笔记]c++基础实践《四》chrono库使用
[笔记]c++基础实践《四》chrono库使用
|
网络协议 Java
JavaRPC原理与实现简介
远程过程调用(Remote Procedure Call,简称RPC)是一种计算机通信协议,它允许在不同的进程之间进行通信,就像在本地调用一样。JavaRPC是基于Java语言实现的一种RPC框架,旨在简化分布式系统的开发和管理。
168 0
|
存储 安全 编译器
【C++系列(合集)】特性多又复杂?不存在!——这篇C++大全直接干碎(超级大全,精讲)(一)
【C++系列(合集)】特性多又复杂?不存在!——这篇C++大全直接干碎(超级大全,精讲)
|
安全 编译器 C++
【C++系列(合集)】特性多又复杂?不存在!——这篇C++大全直接干碎(超级大全,精讲)(二)
【C++系列(合集)】特性多又复杂?不存在!——这篇C++大全直接干碎(超级大全,精讲)
|
存储 编译器 Linux
【C++系列(合集)】特性多又复杂?不存在!——这篇C++大全直接干碎(超级大全,精讲)(三)
【C++系列(合集)】特性多又复杂?不存在!——这篇C++大全直接干碎(超级大全,精讲)
|
安全 小程序 Unix
C++ 入门基础
C++ 是 C语言 的超集,是一门在 C语言 基础上发展起来的语言,C++ 很强大,如今 C++ 已是一个多重范型编程语言,主要包含四部分:C、Object-Oriented C++、Template C++和STL,因此我们一般将 C++ 看作一个语言联邦,显然 C++ 的内容很丰富,也比较难学,但当我们掌握后,它将称为一把利刃
125 0
C++ 入门基础
|
存储 算法 程序员
数据结构与算法(二) 概述
数据结构与算法(二) 概述
67 0
|
人工智能 安全 Unix