数据挖掘之数据准备—— 原始数据的描述

简介:

c58849470f8a8b8279e19dec5220e839f0b64e15

数据样本是数据挖掘过程的基本组成部分,每个样本都用几个特征来描述,每个特征都有不同类型的值。


首先介绍两种常见的基本类型:数值型 和 分类型


数值型值包括实型变量和整型变量如年龄,速度或长度。


数值型特征有两个重要的属性:其值有顺序关系和距离关系。


与其形成对照的是,分类型变量没有上述两种关系,分类型变量的两个值 可以相等或者不等。它们只建立一种等同关系(蓝色=蓝色 或者 红色 != 蓝色),这种类型变量的例子有眼睛颜色,性别,国籍。若分类型变量有两个值,则原则上它可以转换成一个二进制的数值型变量,这种数值型变量有两个值:0或1.

具有n个值的分类型变量可以转换成n个二进制数值型变量,即一个二进制数值对应分类型变量的一个值。


另一种基于变量值的变量分类方法是,根据它是连续型





目录
打赏
0
0
0
0
11
分享
相关文章
从数据海洋中“淘金”——数据挖掘的魔法与实践
从数据海洋中“淘金”——数据挖掘的魔法与实践
56 13
从数据中挖掘洞见:初探数据挖掘的艺术与科学
从数据中挖掘洞见:初探数据挖掘的艺术与科学
85 11
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
164 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
157 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解

热门文章

最新文章

下一篇
oss创建bucket
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等