在数据挖掘领域,了解和处理数据是非常关键的一部分。数据的特性、统计汇总和相似性度量对于构建有效的数据挖掘模型和分析数据非常重要。本文将深入研究数据的各个方面,包括数据类型、属性、统计汇总和相似性度量。
1.数据类型
- 数据库中的行 ->数据对象
- 列 -> 属性
1.1数据对象
数据对象是数据的基本单位。它可以是任何东西,如一个人、一个产品、一篇文章等。数据对象通常由属性的集合来描述,这些属性是关于对象的特征或属性。
1.2属性
属性是描述数据对象的特征或特性。属性可以是定量的(数值)或定性的(类别)。例如,在一个客户数据集中,年龄和收入可以是定量属性,而性别和职业可以是定性属性。
类型
- 标称:类别、状态
- 二进制:包括对称、不对称
- 序数:有意义排序,不知道连续值间隔大小
- 区间标度:值有序,差有意义
- 比率标度:倍数有意义
2.数据统计汇总
2.1中心化趋势度量: 均值、 中位数和众数
均值对离群值很敏感。
均值与众数的经验公式
m e a n − m o d e = 3 × ( m e a n − m e d i a n ) mean- mode= 3×(mean- median)mean−mode=3×(mean−median)
- 均值
均值是数据集的所有数值之和除以数据点的数量。它代表了数据的平均水平。均值对于理解数据的集中趋势非常有用。 - 中位数
中位数是将数据集中的值按升序排列,然后找到中间的值。中位数通常用于描述数据的中间位置。 - 众数
众数是数据集中出现最频繁的值。它可以用来描述数据的峰值。
2.2 离散度度量
- 方差、标准差
- 分位数:IQR分位数极差=Q3-Q1
- 五点概况:min,Ql 9 median,Q3,max
- 盒装图:分析多个属性数据的离散度差异
- 离群点:值高于or低于1.5倍IQR
2.3数据可视化
数据可视化是将数据以图形方式呈现的过程。数据可视化有助于理解数据的分布、趋势和关系。常见的数据可视化工具包括折线图、散点图、直方图、箱线图等。
- 盒装图:分析多个属性数据的离散度差异
- 直方图:单个属性在各个区间变化分布
- 散点图:两组数据的相关性分布
3.数据相似性和相异性度量
3.1度量数据的相似性和相异性
数据相似性度量用于比较数据对象之间的相似性和相异性。例如,欧几里德距离用于度量两个数据点之间的距离。
数据矩阵
相异矩阵
3.2 标称属性的邻近性度量
对于标称属性(如类别或名字),可以使用哈明距离度量不同对象之间的相异性。哈明距离是指两个对象不同属性值的数量。
方法:简单匹配
3.3 二值属性的邻近性度量
对于二值属性(只有两种取值的属性),可以使用杰卡德相似系数度量两个对象之间的相似性。杰卡德相似系数是两个对象相同属性值的比例。
后续分类问题与这个刚好相反
d的分子 = (0,1)+(1,0)
d的分母 = 全 —(0,0)
3.4数值属性的邻近性度量
对于数值属性,常见的邻近性度量方法包括欧几里德距离和曼哈顿距离。这些度量方法用于比较数值属性之间的相似性。
(x1,y1)与(x2,y2)
h=1:曼哈顿距离
h=2:欧氏距离
h趋向于无穷:上确界距离 = max[(x1-x2),(y1-y2)]
3.5余弦相似性
余弦相似性是一种用于比较文本数据相似性的方法,它衡量了两个文本向量之间的夹角余弦。余弦相似性通常用于文本挖掘和自然语言处理中。
数据相似性和相异性度量对于聚类、分类和推荐系统等数据挖掘任务非常重要。通过选择适当的度量方法,可以更好地理解数据对象之间的关系和相似性。
在数据挖掘中,了解数据的类型、属性、统计汇总和相似性度量方法是构建模型和分析数据的基础。这些知识将帮助数据科学家更好地理解和利用数据,以发现有用的模式和信息。