觉得有帮助请点赞关注收藏~~~
一、属性及其类型
属性:(Attribute)是一个数据字段,表示数据对象的一个特征。在文献中,属性、维(Dimension)、特征(Feature)和变量(Variable)表示相同的含义,可以在不同场合互换使用。
属性类型:属性的取值范围决定了属性的类型 一类是定性描述的属性 一类是定量描述的属性
1. 标称属性
标称属性(Nominal Attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又可称为是分类的(Categorical)。
标称属性的值是枚举的,可以用数字表示这些符号或名称。常见的标称属性如姓名、籍贯、邮政编码或婚姻状态等。标称属性的值不仅仅是不同的名字,它提供了足够的信息用于区分对象
2. 二元属性
二元属性(Binary Attribute)是标称属性的特例,也是一种布尔属性,对应0和1两个状态。
二元属性分为对称的和非对称的。如果属性的状态结果是同等重要的,如抛硬币的结果状态,则该属性是对称的二元属性。一个非对称的二元属性其状态的结果不是同样重要的,如病毒检测的阳性和阴性结果。为了方便,用1对重要结果(通常是稀有的)编码,另一个用0编码。
3. 序数属性
序数属性(Ordinal Attribute)的可能值之间存在有意义的序或秩评定,但是相继值之间的差是未知的。
常见的序数属性如上衣的尺寸有S、M、L、XL,可以用数字如1、2、3、4分别对应属性的取值。由于序数属性是有序的,它的中位数是有意义的,因此序数属性的中心趋势度量可以是众数和中位数。
4. 数值属性
数值属性(Numeric Attribute)是可以度量的量,用整数或实数值表示,常见的数值属性如年龄。数值属性可以是区间标度的或比率标度的。
区分区间标度和比率标度的原则是该属性是否有固有的零点,如摄氏温度没有固定的零点,其比值没有意义。所以是区间标度属性,而开式温度有固有的零点,比值有意义,是比率标度属性。
二、数据的基本统计描述
把握数据的分布对于成功的数据预处理是至关重要的。基本的数据统计描述可以识别数据的性质,并凸显哪些数据应被视为噪声或离群点。
把握数据的分布对于成功的数据预处理是至关重要的。基本的数据统计描述可以识别数据的性质,并凸显哪些数据应被视为噪声或离群点。
中心趋势度量:在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。中心趋势度量就是寻找数据水平的代表值或中心值。中心趋势度量包括均值、中位数、众数和中列数。
1.均值:数据集“中心”的最常用的数值度量是(算术)均值。
均值是描述数据集的最常用统计量,但它并非度量数据中心的最佳方法,主要原因是均值对噪声数据很敏感。
2. 中位数:中位数(Median)又称中点数或中值
在概率论与统计学中,中位数一般用于数值型数据。在数据挖掘中可以把中位数推广到序数型数据中。
当数据量很大时,中位数的计算开销会很大,此时可以采用近似估计的方法。假定数据可以根据数值划分为区间,并且知道每个区间的数据个数,可以使用如下公式计算中位数:
例:某企业50名工人加工零件的数据如表3-1所示,计算加工零件数值的中位数。
可以算出中位数的位置是25 在120-125这一组 由上面公式可以近似计算得到中位数为123.31
3. 众数:众数(Mode)是一组数据中出现次数最多的数值。 具有一个、两个或三个众数的数据集分别称为单峰(Unimodal)、双峰(Bimodal)和三峰(Trimodal)。一般具有两个或以上众数的数据集是多峰的(Multimodal)。在极端情况下,如果每个数值只出现一次则它没有众数。
对于非对称的单峰型数据集,一般有下面的经验关系:
4. 中列数:中列数(Midrange)是数据集中的最大值和最小值的平均值,也可以度量数值数据的中心趋势。
利用pandas统计中位数、均值和众数
import pandas as pd df=pd.DataFrame([[1,2],[7.-4],[3,9],[4,-4],[1,3]].columns=['one','two'] print(df.median()) print(df.max(axis=1)) print(df.mode())
数据散布度量用于评估数值数据散布或发散的程度。散布度量的测定是对统计资料分散状况的测定,即找出各个变量值与集中趋势的偏离程度通过度量散布趋势。
数据散布度量包括极差、分位数、四分位数、百分位数和四分位数极差。方差和标准差也可以描述数据分布的散布。
极差、四分位数和四分位数极差
极差(Range)又称范围误差或全距,是一组观测值的最大值与最小值之间的差距。极差是标志值变动的最大范围,它是测定标志变动的最简单的指标。
四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数),说明数据中有25%的数据小于或等于Q1,Q2(第二四分位数,即中位数)说明数据中有50%的数据小于或等于Q2、Q3(第三四分位数)说明数据中有75%的数据小于或等于Q3。其中,Q3到Q1之间的距离的差的一半又称为分半四分位差,记为(Q3-Q1)/2。
第1个和第3个分位数之间的距离为四分位数极差
统计数据的分位数等统计量 调用describe函数即可
五数概括、盒图与离群点
五数概括法即用下面的五个数来概括数据,分别是最小值、第1 四分位数(Q1)、中位数(Q2)、第3 四分位数(Q3)和最大值
盒图的边界分别为第一四分位数和第三四分位数
在箱体上中位数即第二四分数处画垂线
虚线被称为触须线,触须线的端点为最小值和最大值
利用四分位数间距IQR = Q3-Q1,找到界限,超出即为异常值
IQR左 = Q1 - 1.5×IQR IQR右 = Q3 + 1.5×IQR
创作不易 觉得有帮助请点赞关注收藏~~~