数据挖掘2.2——认识数据 知识点整理

简介: 数据挖掘2.2——认识数据 知识点整理

在数据挖掘领域,了解和处理数据是非常关键的一部分。数据的特性、统计汇总和相似性度量对于构建有效的数据挖掘模型和分析数据非常重要。本文将深入研究数据的各个方面,包括数据类型、属性、统计汇总和相似性度量。

1.数据类型

  • 数据库中的行 ->数据对象
  • 列 -> 属性

1.1数据对象

数据对象是数据的基本单位。它可以是任何东西,如一个人、一个产品、一篇文章等。数据对象通常由属性的集合来描述,这些属性是关于对象的特征或属性。

1.2属性

属性是描述数据对象的特征或特性。属性可以是定量的(数值)或定性的(类别)。例如,在一个客户数据集中,年龄和收入可以是定量属性,而性别和职业可以是定性属性。

类型

  • 标称:类别、状态
  • 二进制:包括对称、不对称
  • 序数:有意义排序,不知道连续值间隔大小
  • 区间标度:值有序,差有意义
  • 比率标度:倍数有意义

2.数据统计汇总

2.1中心化趋势度量: 均值、 中位数和众数

均值对离群值很敏感。

均值与众数的经验公式

m e a n − m o d e = 3 × ( m e a n − m e d i a n ) mean- mode= 3×(mean- median)meanmode=3×(meanmedian)

  • 均值
    均值是数据集的所有数值之和除以数据点的数量。它代表了数据的平均水平。均值对于理解数据的集中趋势非常有用。
  • 中位数
    中位数是将数据集中的值按升序排列,然后找到中间的值。中位数通常用于描述数据的中间位置。
  • 众数
    众数是数据集中出现最频繁的值。它可以用来描述数据的峰值。

2.2 离散度度量

  • 方差、标准差
  • 分位数:IQR分位数极差=Q3-Q1
  • 五点概况:min,Ql 9 median,Q3,max
  • 盒装图:分析多个属性数据的离散度差异
  • 离群点:值高于or低于1.5倍IQR

2.3数据可视化

数据可视化是将数据以图形方式呈现的过程。数据可视化有助于理解数据的分布、趋势和关系。常见的数据可视化工具包括折线图、散点图、直方图、箱线图等。

  • 盒装图:分析多个属性数据的离散度差异
  • 直方图:单个属性在各个区间变化分布
  • 散点图:两组数据的相关性分布

3.数据相似性和相异性度量

3.1度量数据的相似性和相异性

数据相似性度量用于比较数据对象之间的相似性和相异性。例如,欧几里德距离用于度量两个数据点之间的距离。

数据矩阵

相异矩阵

3.2 标称属性的邻近性度量

对于标称属性(如类别或名字),可以使用哈明距离度量不同对象之间的相异性。哈明距离是指两个对象不同属性值的数量。

方法:简单匹配

3.3 二值属性的邻近性度量

对于二值属性(只有两种取值的属性),可以使用杰卡德相似系数度量两个对象之间的相似性。杰卡德相似系数是两个对象相同属性值的比例。

后续分类问题与这个刚好相反

d的分子 = (0,1)+(1,0)

d的分母 = 全 —(0,0)

3.4数值属性的邻近性度量

对于数值属性,常见的邻近性度量方法包括欧几里德距离和曼哈顿距离。这些度量方法用于比较数值属性之间的相似性。

(x1,y1)与(x2,y2)

h=1:曼哈顿距离

h=2:欧氏距离

h趋向于无穷:上确界距离 = max[(x1-x2),(y1-y2)]

3.5余弦相似性

余弦相似性是一种用于比较文本数据相似性的方法,它衡量了两个文本向量之间的夹角余弦。余弦相似性通常用于文本挖掘和自然语言处理中。

数据相似性和相异性度量对于聚类、分类和推荐系统等数据挖掘任务非常重要。通过选择适当的度量方法,可以更好地理解数据对象之间的关系和相似性。

在数据挖掘中,了解数据的类型、属性、统计汇总和相似性度量方法是构建模型和分析数据的基础。这些知识将帮助数据科学家更好地理解和利用数据,以发现有用的模式和信息。

目录
相关文章
|
6月前
|
数据采集 算法 数据挖掘
【数据挖掘】数据变换与离散化讲解与实战(超详细 附源码)
【数据挖掘】数据变换与离散化讲解与实战(超详细 附源码)
225 0
|
6月前
|
数据可视化 数据挖掘 大数据
【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战(超详细 附源码)
【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战(超详细 附源码)
138 0
|
6月前
|
数据可视化 算法 JavaScript
【Python数据挖掘】数据可视化及数据对象的相似性度量算法详解(超详细 附源码)
【Python数据挖掘】数据可视化及数据对象的相似性度量算法详解(超详细 附源码)
196 0
|
3月前
|
SQL 存储 算法
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
恒生科技2022年9月24号数据ETL工程师岗位的笔试题目及答案汇总,包括了SQL选择题、SQL编程题和业务应用SQL编程题,涵盖了数据库基础知识、SQL语句编写以及数据仓库概念等多个方面。
58 2
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
|
3月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
55 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
3月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
70 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
|
6月前
|
数据采集 存储 算法
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
|
6月前
|
移动开发 算法 数据可视化
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
|
6月前
|
算法 数据挖掘 数据库
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
|
6月前
|
数据可视化 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分

热门文章

最新文章