箱线图(Boxplot)

简介: 箱线图(Boxplot)

箱线图(Boxplot),也称为盒须图或箱形图,是一种用于展示数据分布特征的统计图表。它可以直观地显示数据的最小值、第一四分位数、中位数、第三四分位数和最大值,以及数据中的异常值。箱线图是探索性数据分析中识别异常值和理解数据集分布特性的重要工具。

箱线图的组成部分:

  1. 箱子(Box)

    • 箱子的底部和顶部分别是第一四分位数(Q1)和第三四分位数(Q3)。
    • 箱子的长度(即IQR,四分位距)表示数据的中间50%所在的范围。
    • 箱子中间的线表示中位数(Median),即第二四分位数(Q2)。
  2. 触须(Whiskers)

    • 触须通常是从箱子向外延伸的线,表示数据的范围。
    • 触须的末端通常设置在Q1 - 1.5 IQR和Q3 + 1.5 IQR的位置,这些位置以外的数据点通常被认为是异常值。
  3. 异常值(Outliers)

    • 位于触须之外的数据点被认为是异常值,这些点通常用小圈或星号表示。
    • 异常值可能表示数据录入错误、自然变异的极端情况,或者是真实的、重要的数据点。
  4. 数据点(Data Points)

    • 箱子和触须之间的数据点表示数据的主体部分。
    • 箱子外部的点(不包括异常值)表示四分位数范围之外的数据。

箱线图的作用:

  • 快速识别数据中的异常值。
  • 显示数据的集中趋势(中位数)和分散程度(四分位距)。
  • 比较不同数据集或类别的分布情况(当箱线图并排放置时)。
  • 揭示数据的偏斜性。

箱线图的解读示例:

假设我们有以下数据集:[4, 8, 6, 5, 3, 2, 8, 9, 12, 15, 18, 20, 22, 100]

  1. 排序后的数据集:[2, 3, 4, 5, 6, 8, 8, 9, 12, 15, 18, 20, 22, 100]。
  2. 计算Q1、Q2(中位数)、Q3。
  3. 计算IQR。
  4. 确定触须的末端位置。
  5. 识别异常值(例如,100可能是一个异常值)。

箱线图的绘制:

箱线图可以使用各种统计软件和编程语言绘制,如Python(使用matplotlib或seaborn库)、R语言(使用boxplot函数)、Excel等。

箱线图的局限性:

  • 它可能对异常值过于敏感,特别是当数据集较小或异常值较多时。
  • 它不提供关于数据分布形状的具体信息,例如数据是否呈正态分布。

总的来说,箱线图是一种非常有用的数据可视化工具,它可以帮助我们快速了解数据的关键统计特性,并识别可能的数据问题。

相关文章
|
5月前
|
Python
matplotlib-条形图
matplotlib-条形图
|
机器学习/深度学习 API Python
seaborn画直方图、条形图、盒图、散点图等常用图形
seaborn画直方图、条形图、盒图、散点图等常用图形
271 0
seaborn画直方图、条形图、盒图、散点图等常用图形
|
数据挖掘
ggplot2|从0开始绘制箱线图
ggplot2|从0开始绘制箱线图
156 0
|
数据挖掘
ggplot2|从0开始绘制折线图
ggplot2|从0开始绘制折线图
150 0
|
数据可视化
R可视化学习(2)--箱线图
箱线图由箱和“须”(whisker)两部分组成。箱的范围是从数据的下四分位数到上四分位数,也就是常说的四分位距(IQR)。箱的中间有一条表示中位数,或者说50%分位数的线。须则是从箱子的边缘出发延伸至1.5倍四分位距内的最远的点。如果图中有超过须的数据点,则其被视为异常值,并以点来表示。如下图使用偏态的数据展示了直方图、密度曲线和箱线图之间的关系。
107 0
|
数据可视化 数据挖掘 Python
跟着Nature学作图:R语言ggplot2 Figure3 堆积柱形图和簇状柱形图
跟着Nature学作图:R语言ggplot2 Figure3 堆积柱形图和簇状柱形图
|
开发者 Python
matplotlib画折线图、直方图、饼图、散点图等常见图形
matplotlib画折线图、直方图、饼图、散点图等常见图形
262 0
matplotlib画折线图、直方图、饼图、散点图等常见图形
|
数据可视化 Python
Matplotlib数据可视化:饼图与箱线图
Matplotlib数据可视化:饼图与箱线图
Matplotlib数据可视化:饼图与箱线图
|
开发者 Python
直方图与散点图|学习笔记
快速学习直方图与散点图
196 0
直方图与散点图|学习笔记