Python数据可视化-seaborn Iris鸢尾花数据

简介: Python数据可视化-seaborn Iris鸢尾花数据

首先介绍一下Iris鸢尾花数据集,内容摘自百度百科:Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。“Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类”。


导入库


读取数据


数据字段介绍:

  • sepal_length:花萼长度,单位cm
  • sepal_width:花萼宽度,单位cm
  • petal_length:花瓣长度,单位cm
  • petal_width:花瓣宽度,单位cm
  • 种类:setosa(山鸢尾),versicolor(杂色鸢尾),virginica(弗吉尼亚鸢尾)

在做categorical visualization的时候,seaborn给出了基础的stripplot & swarmplot, boxplot & violinplot, barplot & pointplot,以及抽象化的factorplot.下面就用纸鸢花数据集做一下讲解。

StripplotStripplot的本质就是把数据集中具有quantitative属性的变量按照类别去做散点图(Scatterplot)。

我们将纸鸢花数据集中不同种类花的sepal length做stripplot可视化


plt.show()


上边左侧的图片便是在默认风格下用stripplot绘制的散点图。在很多情况下,stripplot中的点会重叠,使得我们不容易看出点的分布情况。一个简单的解决办法就是用在stripplot的基础上绘制抖动图(jitterplot),仅沿着类别坐标轴的方向去随机微调整点的位置,显示出分布情况。

Swarmplot另一个解决stripplot中点重叠的办法就是绘制swarmplot,它的本质就是用通过算法,在类别坐标轴的方向上去‘延展’绘制这些原本重合的点。我们将纸鸢花数据集中不同种类花的petal length和petal width做swarmplot可视化。


plt.subplot(1,2,1)

sns.swarmplot(x='Species',y='Petal.Length',data=iris)

plt.show()

Boxplot箱形图,主要包含六个数据节点,将一组数据从大到小排列,分别计算出上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有异常值。下面将纸鸢花数据集中的四个变量sepal_length, sepal_width, petal_length和petal_width做箱形图可视化。


fig = plt.figure(1,figsize=(12,12))

plt.show()

Violinplot


Violinplot相当于结合了箱形图与核密度图,更好地展现出数据的量化形态。展示如下:


plt.figure(1,figsize=(12,12))

for i in range(4):

plt.show()

Violinplot用kernel density estimate去更好地描述了quantitative变量的分布。


与此同时,也可以组合swarmplot和boxplot或violinplot去描述quantitative变量。用鸢尾花数据集展示如下:


In [8]:

plt.figure(1,figsize=(12,12))

plt.title(str(var[i])+ ' in Iris species')

plt.show()

BarplotBarplot主要是展现在分类中的quantitative变量的平均值情况,并且用了boostrapping算法计算了估计值的置信区间和error bar.用鸢尾花数据集展示如下:



Countplot如果想知道在每个类别下面有多少个观察值,用countplot就可以,相当于是做一个observation counts,用鸢尾花数据集展示如下:



PointplotPointplot相当于是对barplot做了一个横向延伸,一方面,用point estimate和confidence level去展示barplot的内容;另一方面,当每一个主类别下面有更细分的sub-category的时候,pointplot可以便于观察不同sub-category在各主类别之间的联系。展示如下:



FactorplotFactorplot可以说是seaborn做category visualization的精髓,前面讲的这些plot都可以说是factorplot的具体展示。我们可以用PariGrid去实现对多个类别的数值特征用同一种plot做可视化。


In [12]:

g.map(sns.violinplot,palette='pastel')

plt.show()

附上各plot function的API,今后将会对API中的参数结合tutorial讲讲,如何做出更好的可视化效果。更新ing


seaborn.stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,

ata=None, order=None, hue_order=None,

bw='scott', cut=2, scale='area', scale_hue=True, gridsize=100, width=0.8, inner='box',

split=False, dodge=True, orient=None, linewidth=None, color=None, palette=None,

saturation=0.75, ax=None, **kwargs)

seaborn.lvplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,

orient=None, color=None, palette=None, saturation=0.75, width=0.8, dodge=True,

小结

seaborn是一个很棒的可视化库,尤其是当数据维度很大的时候,seaborn可以让我们用最少的代码去绘制一些描述性统计的图,便于找寻各维度变量之间的特征。此篇文档也是我对seaborn的学习笔记,这次整理的内容是关于category visualization。下次将会选取其他数据集去整理关于distribution visualization的内容。

相关文章
|
2月前
|
数据可视化 关系型数据库 MySQL
基于python大数据的的海洋气象数据可视化平台
针对海洋气象数据量大、维度多的挑战,设计基于ECharts的可视化平台,结合Python、Django与MySQL,实现数据高效展示与交互分析,提升科研与决策效率。
|
2月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
1191 1
|
2月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
385 0
|
2月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
数据可视化 数据挖掘 Python
Python实践:seaborn的散点图矩阵(Pairs Plots)可视化数据
如何快速创建强大的可视化探索性数据分析,这对于现在的商业社会来说,变得至关重要。今天我们就来,谈一谈如何使用python来进行数据的可视化!
16157 0
|
3月前
|
数据采集 机器学习/深度学习 人工智能
Python:现代编程的首选语言
Python:现代编程的首选语言
287 102
|
3月前
|
数据采集 机器学习/深度学习 算法框架/工具
Python:现代编程的瑞士军刀
Python:现代编程的瑞士军刀
313 104
|
3月前
|
人工智能 自然语言处理 算法框架/工具
Python:现代编程的首选语言
Python:现代编程的首选语言
259 103
|
3月前
|
机器学习/深度学习 人工智能 数据挖掘
Python:现代编程的首选语言
Python:现代编程的首选语言
193 82
|
2月前
|
Python
Python编程:运算符详解
本文全面详解Python各类运算符,涵盖算术、比较、逻辑、赋值、位、身份、成员运算符及优先级规则,结合实例代码与运行结果,助你深入掌握Python运算符的使用方法与应用场景。
179 3

推荐镜像

更多