Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介、应用之详细攻略——daidingdaiding

简介: Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介、应用之详细攻略——daidingdaiding

箱线图


      箱线图(box plots):这些图显示了一个小长方形,有一个红线穿过它。红线代表此列数据的中位数(第50 百分位数),长方形的顶和底分别表示第25 百分位数和第75 百分位数(或者第一四分位数、第三四分位数)。

      箱线图又叫为盒须图(box and whisker plots)。在盒子的上方和下方有小的水平线,叫作盒须(whisker)。它们分别据盒子的上边和下边是四分位间距的1.4 倍,四分位间距就是第75 百分位数和第25 百分位数之间的距离,也就是从盒子的顶边到盒子底边的距离。也就是说盒子上面的盒须到盒子顶边的距离是盒子高度的1.4 倍。这个盒须的1.4 倍距离是可以调整的,详见箱线图

的相关文档。

      在有些情况下,盒须要比1.4 倍距离近,这说明数据的值并没有扩散到原定计算出来的盒须的位置。在这种情况下,盒须被放在最极端的点上。在另外一些情况下,数据扩散到远远超出计算出的盒须的位置(1.4 倍盒子高度的距离),这些点被认为是异常点。


箱线图的目的:一种比打印出数据更快、更直接的发现异常点的方法,但是最后一个环数属性(最右边的盒子)的取值范围导致其他属性都被“压缩”了(导致很难看清楚)。T1、一种简单的解决方法就是把取值范围最大的那个属性删除。

image.png

image.png

image.png


T2、画箱线图之前采用将属性值归一化:因为没有实现根据取值范围自动缩放(自适应)。在画箱线图之前将属性值归一化(normalization)。此处的归一化指确定每列数据的中心,然后对数值进行缩放,使属性1 的一个单位值与属性2 的一个单位值相同。在数据科学中有相当数量的算法需要这种归一化。例如,K-means聚类方法是根据行数据之间的向量距离来进行聚类的。距离是对应坐标上的点相减然后取平方和。单位不同,算出来的距离也会不同。到一个杂货店的距离以英里为单位是1 英里,以英尺为单位就是5 280 英尺。代码清单2-11 中的归一化是把属性数值都转换为均值为0、标准差为1 的分布。这是最通用的归一化。归一化计算用到了函数summary() 的结果。归一化后的效果如图2-11 所示。image.png




     注意归一化到标准差1.0 并不意味着所有的数据都在−1.0 和+1.0 之间。盒子的顶边和底边多少都会在−1.0 和+1.0 附近,但是还有很多数据在这个边界外。



相关文章
|
12月前
|
机器学习/深度学习 数据挖掘
这图怎么画| 一个用于展示多种机器学习模型结果的热图
这图怎么画| 一个用于展示多种机器学习模型结果的热图
123 0
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
机器学习 —— 数据分析与图表绘制
机器学习 —— 数据分析与图表绘制
|
5月前
|
机器学习/深度学习 存储 算法
【数据分享】R语言SVM和LDA文本挖掘分类开源软件存储库标签数据和词云可视化
【数据分享】R语言SVM和LDA文本挖掘分类开源软件存储库标签数据和词云可视化
|
5月前
|
机器学习/深度学习 监控 数据可视化
Scikit-learn与可视化:让机器学习结果更直观
【4月更文挑战第17天】本文探讨了如何使用Scikit-learn和可视化工具使机器学习结果更直观。Scikit-learn作为Python的开源机器学习库,结合Matplotlib、Seaborn等可视化库,便于数据探索、模型训练过程监控及结果展示。通过示例代码,展示了数据探索的pairplot、模型训练准确率曲线的绘制以及聚类结果的散点图,强调了可视化在提升模型理解度和应用普及性上的作用。随着可视化技术进步,机器学习将变得更直观易懂。
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
R语言SVM模型文本挖掘分类研究手机评论数据词云可视化
R语言SVM模型文本挖掘分类研究手机评论数据词云可视化
|
5月前
|
机器学习/深度学习 自然语言处理 数据可视化
数据分享|R语言豆瓣数据文本挖掘 神经网络、词云可视化和交叉验证
数据分享|R语言豆瓣数据文本挖掘 神经网络、词云可视化和交叉验证
|
5月前
|
机器学习/深度学习 自然语言处理 数据可视化
【数据分享】R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析
【数据分享】R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析
|
5月前
|
机器学习/深度学习 算法 Python
LightGBM高级教程:时间序列建模
LightGBM高级教程:时间序列建模【2月更文挑战第7天】
225 0
|
5月前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】K-Means算法对人脸图像进行聚类实战(附源码和数据集)
【Python机器学习】K-Means算法对人脸图像进行聚类实战(附源码和数据集)
387 1
|
5月前
|
机器学习/深度学习 资源调度 数据挖掘
数据挖掘与机器学习中Matplotlib绘图模块详细讲解(超详细 附源码)
数据挖掘与机器学习中Matplotlib绘图模块详细讲解(超详细 附源码)
92 0
下一篇
无影云桌面