调查数据并从中提取信息和趋势的工具。
绿色代表新的开始和成长,也意味着更新和丰富。
数据可视化在数据挖掘中起着非常重要的作用。各种数据科学家花费了他们的时间通过可视化来探索数据。为了加快这一进程,我们需要有合适的工具。
没有规划的情况下,资源也无法转化为有价值的商品。因此,我希望本文能够为您提供关于所有可视化方法的架构。
目录
- 简介
- 了解你的数据
- 分布曲线
a. 直方图b. 联合图c. 配对图d. Rug图 - 分布图a. 条形图b. 统计图c. 箱型图d. Violin图
- 高级绘制方法a. Strip图b. Swarm图
- 矩阵图a. Heat Mapb. Cluster Map
- 网格a. Facet Grid
- 回归图
简介
Seaborn是一个基于matplotlib的Python数据可视化库。它提供了一个高级界面,以绘制曲线和信息统计图形。
您可以在命令行中运行以下任何一个命令来安装Seaborn。
pipinstallseaborncondainstallseaborn
运行以下命令可以导入seaborn。
importseabornassns
了解你的数据
图中使用的数据集为著名的泰坦尼克数据集(图1),下面将数据集用变量df表示。
图1:泰坦尼克数据集
分布曲线
我们可以使用这些图来理解数据的平均值、中位数、范围、方差、偏差等。
a. 直方图
- Dist plot给出了所选连续变量的直方图。
- 这是单变量分析的一个例子。
- 我们可以改变箱子的数量,即直方图中垂直条的数量
importseabornassnssns.distplot(x=df['age'], bins=10)
图2:乘客“年龄”分布图。
- 这里x轴表示年龄,y轴表示频率。例如,对于Bins= 10的分布图,大约有50个人年龄在0到10岁之间
b.联合图
- 它是两个变量的组合。
- 这是一个二元分析的例子。
- 我们还得到了变量之间的散点图来反映它们的线性关系。我们可以自定义散点图为六边形图,其中,颜色越深,出现的次数就越多。
importseabornassns#ForPlot1sns.jointplot(x=df['age'], y=df['Fare'], kind='scatter')#ForPlot2sns.jointplot(x=df['age'], y=df['Fare'], kind='hex')
图3:“年龄”和“票价”的联合图
- 我们可以看到,年龄和票价之间并没有合适的线性关系。
- kind = ' hex '提供了六边形图,kind = ' reg '提供了图形上的回归线。
c.配对图
- 它取数据的所有数值属性,绘制两个不同变量的两两散点图和同一变量的直方图。
importseabornassnssns.pairplot(df)
图4:泰坦尼克号数据集配对图
d.Rug图
- 它画了一条线,而不是像在直方图中那样二维分布图。
- 这是单变量分析的一个例子。
importseabornassnssns.rugplot(x=df['Age'])
图5:乘客“年龄”的Rug图
分类图
这些图帮助我们理解分类变量。我们可以用它们进行单变量和双变量分析。
a.条形图
- 这是一个二元分析的例子。
- 在x轴上有一个分类变量,在y轴上有一个连续变量。
importseabornassnssns.barplot(x=df['Sex'], y=df['Fare'])
图6:“车费”和“性别”的条形图
- 我们可以推断出女性的平均票价比男性高。
b.统计图
- 它计算分类变量出现的次数。
- 这是单变量分析的一个例子。
importseabornassnssns.countplot(df['Pclass'])
图7:是否幸存和' P-class '的计数图。
c.箱型图
- 这是一个总结图。它给出了一个连续变量的最大值、最小值、平均值、第一个四分位数和第三个四分位数的信息。同时,它让我们掌握了离群值的信息。
- 我们可以对一个连续变量进行绘图,也可以根据一个连续变量分析不同的分类变量。
importseabornassns#Forplot1sns.countplot(df['Pclass'])#Forplot2sns.boxplot(y=df['Age'], x=df['Sex'])
图8:a)“年龄”的箱形图,b)“年龄”和“性别”不同类别的箱形图