Pandas可视化指南:从零教你绘制数据图表

简介: Pandas可视化指南:从零教你绘制数据图表

导入数据

在绘制图形前,我们首先需要导入csv文件:]]

import pandas as pddf=pd.read_csv(‘./world-happiness-report-2019.csv’)df.head(3)

这个csv图标的内容是各个国家按照不同维度评价的幸福指数(数据下载地址见文末):

数据帧中一些列的名称比较冗长,可以重命名使其更加简洁:

df.rename(columns={“Country (region)”: “Country”, “Log of GDP\nper capita”: “Log_GDP_per_capita”, “Healthy life\nexpectancy”:”Health_life_expect”},inplace=True)df.columns

绘制柱状图、散点图等常见图形

从最近简单的柱状图开始,只统计腐败程度、自由度、宽容度、社会支持等几个维度

%matplotlib tkdf1=df[:5]df1.plot(‘Country’,[‘Corruption’,’Freedom’,’Generosity’,’Social support’],kind = ‘bar’)

嫌直接写名称太麻烦?没关系,我们也可以用所在列的数字来绘制,比如上述4个列分别为7、6、8、5:

%matplotlib tkdf1=df[:5]df1.plot(‘Country’,[7,6,8,5],kind = ‘bar’)

在上面的代码中kind = ‘bar’,所以绘制的图形是柱状图,如果我们把参数改成kind = ‘line’,画出的就是线状图

df1=df[:5]df1.plot(‘Country’,[‘Corruption’,’Freedom’,’Generosity’,’Social support’],kind = ‘line’)

同样的,如果把参数改成kind = ‘line’,还能绘制出箱形图:

df[:5].plot(x=’Country’,kind=’box’)

对于散点图,设置kind=’scatter’,绘制出腐败程度与自由度之间的关系,用color=’R’将点定义为红色:

df.plot(x=’Corruption’,y=’Freedom’,kind=’scatter’,color=’R’)

此外,Pandas中还有一个辅助函数pandas.plotting.table,它创建一个来自数据帧的表格,并将其添加到matplotlib Axes实例中。

from pandas.plotting import tabledf1=df[:5]df1=df.loc[:5,[‘Country (region)’,’Corruption’,’Freedom’,’Generosity’,’Social support’]]ax=df1.plot(‘Country (region)’,[‘Corruption’,’Freedom’,’Generosity’,’Social support’], kind = ‘bar’, title =’Bar Plot’,legend=None)table(ax, np.round(df1.describe(), 2),loc=’upper right’)

坐标轴的设置

取值范围

使用xlim和ylim两个参数可设置x和y轴的范围。在折线图中,我们要将x轴设置为0到20,y限制为从0到100。

df1=df[:20]df1[‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100))

x、y轴刻度

有时候坐标轴上的刻度并不理想,我们希望在上面标上我们喜欢的数值。

比如对于x轴,我们想要标上0、10、15和20几个值;对于y轴,我们想要标上0、50、70、100几个值,可以在xticksyticks参数中悉数列出。

df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([0,10,15,20]),yticks=([0,50,70,100]), title = ‘xticks’)

但是用列表来制定坐标刻度的方法,在数值太多的时候就比较麻烦了,因此我们还能通过指定刻度间隔的方法来绘制坐标轴,比如指定x轴间隔是1,y轴间隔是10:

df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([w1 for w in range(20)]),yticks=([w10 for w in range(40)]))

如果我们不希望在坐标轴上看到数字,而是想要设置标签。我们还可以将x轴标签更改为文本标签“低、中、高”这种样式。

ax=df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([0,10,20]),yticks=([w*30 for w in range(40)]))ax.set_xticklabels([‘Low’,’Med’,’High’])

对数坐标

如果数据的跨度范围非常大,横跨好几个数量级,那么用线性坐标就无法很好地展示数据。这时候我们需要用到对数坐标,设置方法是将logx或者logy的值设置为Ture

如果我们只想设置x轴为对数坐标,y轴仍保持线性坐标,那么

df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,1000),ylim=(0,100),color=’red’,logx=True)

其他高阶用法

可以使用stacked参数来绘制带有条形图的堆叠图。在这里,我们绘制堆叠的水平条,stacked设置为True。

将grid参数设置为True,可以给图表加入网格。

有了subplot参数还可以绘制子图,根据需要指定行数和列数以及绘图的数量。


在上面的子图中,我们没有给子图添加标题。当subplot 设置为True 时,在设置一组title的值,即可在列表上方加入标题。

相关文章
|
1月前
|
Python
使用 Pandas 库时,如何处理数据的重复值?
在使用Pandas处理数据重复值时,需要根据具体的数据特点和分析需求,选择合适的方法来确保数据的准确性和唯一性。
119 8
|
2天前
|
存储 数据挖掘 数据处理
Pandas 数据筛选:条件过滤
Pandas 是 Python 最常用的数据分析库之一,提供了强大的数据结构和工具。本文从基础到高级,介绍如何使用 Pandas 进行条件过滤,包括单一条件、多个条件过滤、常见问题及解决方案,以及动态和复杂条件过滤的高级用法。希望本文能帮助你更好地利用 Pandas 处理数据。
104 78
|
4天前
|
数据挖掘 索引 Python
Pandas数据读取:CSV文件
Pandas 是 Python 中强大的数据分析库,`read_csv` 函数用于从 CSV 文件中读取数据。本文介绍 `read_csv` 的基本用法、常见问题及其解决方案,并通过代码案例详细说明。涵盖导入库、读取文件、指定列名和分隔符、处理文件路径错误、编码问题、大文件读取、数据类型问题、日期时间解析、空值处理、跳过行、指定索引列等。高级用法包括自定义列名映射、处理多行标题和注释行。希望本文能帮助你更高效地使用 Pandas 进行数据读取和处理。
37 13
|
1天前
|
算法 数据挖掘 索引
Pandas数据排序:单列与多列排序详解
本文介绍了Pandas库中单列和多列排序的方法及常见问题的解决方案。单列排序使用`sort_values()`方法,支持升序和降序排列,并解决了忽略大小写、处理缺失值和索引混乱等问题。多列排序同样使用`sort_values()`,可指定不同列的不同排序方向,解决列名错误和性能优化等问题。掌握这些技巧能提高数据分析效率。
21 9
|
1月前
|
Python
|
1月前
|
Python
|
1月前
|
Python
Pandas 常用函数-数据合并
Pandas 常用函数-数据合并
40 1
|
1月前
|
索引 Python
Pandas 常用函数-数据排序
10月更文挑战第28天
17 1
|
1月前
|
Python
Pandas 常用函数-查看数据
Pandas 常用函数-查看数据
21 2
|
1月前
|
Python
Pandas 常用函数-数据选择和过滤
Pandas 常用函数-数据选择和过滤
16 0
下一篇
DataWorks