Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介、应用之详细攻略——daidingdaiding

简介: Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介、应用之详细攻略——daidingdaiding


目录

箱线图


 

 

 

 

箱线图

      箱线图(box plots):这些图显示了一个小长方形,有一个红线穿过它。红线代表此列数据的中位数(第50 百分位数),长方形的和底分别表示第25 百分位数和第75 百分位数(或者第一四分位数、第三四分位数)。

      箱线图又叫为盒须图(box and whisker plots)。在盒子的上方和下方有小的水平线,叫作盒须(whisker)。它们分别据盒子的上边和下边是四分位间距的1.4 倍,四分位间距就是第75 百分位数和第25 百分位数之间的距离,也就是从盒子的顶边到盒子底边的距离。也就是说盒子上面的盒须到盒子顶边的距离是盒子高度的1.4 倍。这个盒须的1.4 倍距离是可以调整的,详见箱线图

的相关文档。

      在有些情况下,盒须要比1.4 倍距离近,这说明数据的值并没有扩散到原定计算出来的盒须的位置。在这种情况下,盒须被放在最极端的点上。在另外一些情况下,数据扩散到远远超出计算出的盒须的位置(1.4 倍盒子高度的距离),这些点被认为是异常点。

箱线图的目的:一种比打印出数据更快、更直接的发现异常点的方法,但是最后一个环数属性(最右边的盒子)的取值范围导致其他属性都被“压缩”了(导致很难看清楚)。T1、一种简单的解决方法就是把取值范围最大的那个属性删除

T2、画箱线图之前采用将属性值归一化:因为没有实现根据取值范围自动缩放(自适应)。在画箱线图之前将属性值归一化(normalization)。此处的归一化指确定每列数据的中心,然后对数值进行缩放,使属性1 的一个单位值与属性2 的一个单位值相同。在数据科学中有相当数量的算法需要这种归一化。例如,K-means聚类方法是根据行数据之间的向量距离来进行聚类的。距离是对应坐标上的点相减然后取平方和。单位不同,算出来的距离也会不同。到一个杂货店的距离以英里为单位是1 英里,以英尺为单位就是5 280 英尺。代码清单2-11 中的归一化是把属性数值都转换为均值为0、标准差为1 的分布。这是最通用的归一化。归一化计算用到了函数summary() 的结果。归一化后的效果如图2-11 所示。

     注意归一化到标准差1.0 并不意味着所有的数据都在−1.0 和+1.0 之间。盒子的顶边和底边多少都会在−1.0 和+1.0 附近,但是还有很多数据在这个边界外。


相关文章
|
1月前
|
机器学习/深度学习 存储 算法
深度学习500问——Chapter02:机器学习基础(4)
深度学习500问——Chapter02:机器学习基础(4)
34 0
|
1月前
|
机器学习/深度学习 数据可视化 算法
机器学习-可解释性机器学习:随机森林与fastshap的可视化模型解析
机器学习-可解释性机器学习:随机森林与fastshap的可视化模型解析
117 1
|
1月前
|
存储 机器学习/深度学习 Apache
如何将Apache Hudi应用于机器学习
如何将Apache Hudi应用于机器学习
22 0
|
1月前
|
机器学习/深度学习 算法 大数据
机器学习与深度学习介绍
机器学习与深度学习介绍
|
1月前
|
机器学习/深度学习 运维 算法
深度学习500问——Chapter02:机器学习基础(5)
深度学习500问——Chapter02:机器学习基础(5)
38 0
|
1月前
|
机器学习/深度学习 算法 数据可视化
深度学习500问——Chapter02:机器学习基础(3)
深度学习500问——Chapter02:机器学习基础(3)
47 0
|
1月前
|
机器学习/深度学习 算法 搜索推荐
深度学习500问——Chapter02:机器学习基础(2)
深度学习500问——Chapter02:机器学习基础(2)
47 0
|
1月前
|
机器学习/深度学习 算法 大数据
深度学习500问——Chapter02:机器学习基础(1)
深度学习500问——Chapter02:机器学习基础(1)
41 1
深度学习500问——Chapter02:机器学习基础(1)
|
1月前
|
机器学习/深度学习 数据采集 算法
机器学习-深度学习:如何使用SuperLearner精准诊断?
机器学习-深度学习:如何使用SuperLearner精准诊断?
29 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT:深度学习和机器学习的知识桥梁
ChatGPT:深度学习和机器学习的知识桥梁
26 0

热门文章

最新文章