Pandas数据分析:快速图表可视化各类操作详解+实例代码(一)

简介: Pandas数据分析:快速图表可视化各类操作详解+实例代码(一)

前言


一般我们做数据挖掘或者是数据分析,再或者是大数据开发提取数据库里面的数据时候,难免只能拿着表格数据左看右看,内心总是希望能够根据自己所想立马生成一张数据可视化的图表来更直观的呈现数据。而当我们想要进行数据可视化的时候,往往需要调用很多的库与函数,还需要数据转换以及大量的代码处理编写。这都是十分繁琐的工作,确实只为了数据可视化我们不需要实现数据可视化的工程编程,这都是数据分析师以及拥有专业的报表工具来做的事情,日常分析的话我们根据自己的需求直接进行快速出图即可,而Pandas正好就带有这个功能,当然还是依赖matplotlib库的,只不过将代码压缩更容易实现。下面就让我们来了解一下如何快速出图。


Pandas数据分析系列专栏已经更新了很久了,基本覆盖到使用pandas处理日常业务以及常规的数据分析方方面面的问题。从基础的数据结构逐步入门到处理各类数据以及专业的pandas常用函数讲解都花费了大量时间和心思创作,如果大家有需要从事数据分析或者大数据开发的朋友推荐订阅专栏,将在第一时间学习到Pandas数据分析最实用常用的知识。此篇博客篇幅较长,涉及到处理文本数据(str/object)等各类操作,值得细读实践一番,我会将Pandas的精华部分挑出细讲实践。博主会长期维护博文,有错误或者疑惑可以在评论区指出,感谢大家的支持。


一、基础绘图:plot


Series和DataFrame上的plot方法只是plt.plot()的简单包装,这里我们用一段实际数据来进行可视化展示:


6cbacc2b627a474b84c910f74f1fdae8.png

这是一段真实地铁通行量特征数据,我们用此数据进行展示:


df_flow['客流量'].plot()



29cd6482006342c2ae84c36cc52cb9dc.png

如果索引由日期组成,则调用gcf().autofmt_xdate()方法可以很好地格式化x轴。


d45c019b479743e89a256106b983153f.png


在DataFrame上,plot()可以方便地用标签绘制所有列:


df_flow_mark[['湿度','风级','降水量']].plot()


1ed673c9e4224e7694225ddd4584e490.png

可以使用plot()中的x和y关键字绘制一列与另一列的对比,比如我们想要使用星期六的客流量和星期日的客流量作对比:


df_flow_7=df_flow[df_flow['日期']=='星期日'].iloc[:7,:]
df_flow_7.rename(columns={'客流量':'星期日客流量'},inplace=True)
df_flow_6=df_flow[df_flow['日期']=='星期六'].iloc[:7,:]
df_flow_6.rename(columns={'客流量':'星期六客流量'},inplace=True)
df_compare=pd.concat([columns_convert_df(df_flow_7['星期日客流量']),columns_convert_df(df_flow_6['星期六客流量'])],axis=1)
df_compare.plot(x='星期日客流量',y='星期六客流量')

13366c7212b047a388f4fe149254a439.png


二、底图板块


根据Pandas包装后的kind关键字我们梳理一下底图种类

618d2c184ff34f83acf6f3a490bc7559.png


也可以使用DataFrame.plot方法创建这些其他绘图<kind>而不是提供kind关键字参数。这使得更容易发现绘图方法及其使用的特定参数:

df.plot.area     df.plot.barh     df.plot.density  df.plot.hist     df.plot.line     df.plot.scatter
df.plot.bar      df.plot.box      df.plot.hexbin   df.plot.kde      df.plot.pie


除了这些类型,还有DataFrame.hist()和DataFrame.boxplot()方法,它们使用单独的接口。


最后,pandas中有几个绘图功能。以Series或DataFrame作为参数的绘图。其中包括:


Scatter Matrix


Andrews Curves


Parallel Coordinates


Lag Plot


Autocorrelation Plot


Bootstrap Plot


RadViz


分别是:


散射矩阵

安德鲁斯曲线

平行坐标

滞后图

自相关图

引导图

拉德维兹图

绘图也可以用错误条或表格进行装饰。


1.条形图


df_flow_mark['客流量'].plot(kind='bar')
df_flow_mark['客流量'].plot.bar()


ac012349d9834505a5426ba182c3c76c.png


多个标签图表也可以一齐绘出:


df_flow_mark[['风级','降水量']].plot.bar()

78997bd8e6724a82ab9340f4700f77d2.png

要生成堆叠条形图,传递stacked=True:


df_flow_mark[['风级','降水量']].plot.bar(stacked=True)


e7e89939083249c289e2f19af601e4d6.png


长久看这个maatplotlib的默认地图有点疲劳了,我这里换个主题,还是一样的效果不碍事。


要获得水平条形图可以使用barh方法:


df_flow_mark[['风级','降水量']].plot.barh(stacked=True)


93c97970e56942ffa665518b95e4f98b.png


2.直方图


可以使用DataFrame.plo.hist()和Series.plot.hist()方法绘制直方图.

df4 = pd.DataFrame(
    {
        "a": np.random.randn(1000) + 1,
        "b": np.random.randn(1000),
        "c": np.random.randn(1000) - 1,
    },
    columns=["a", "b", "c"],
)
plt.figure();
df4.plot.hist(alpha=0.5)

f3852a3f2795400c84f1b98354e79fae.png


直方图可以使用stacked=True进行叠加。可以使用bins关键字更改bin大小。


df4.plot.hist(stacked=True, bins=20);


ea8b7c9a03074d65b75d99e332268909.png可以传递matplotlib hist支持的其他关键字。例如,水平和累积直方图可以通过orientation='horizontal'和cumulative=True绘制。

c4ed1fe2625e4e43ae8b21eec3ef498d.png


有关详细信息,可以参阅hist方法和matplotlib hist文档。

现有接口DataFrame.hist,但仍然可以使用hist绘制直方图


1. plt.figure();
2. df_flow_mark['风级'].hist()


0dfc9813ca744a3da883b3b0112ef5af.png

DataFrame.hist()可以在多个子地块上绘制列的直方图:


1. plt.figure();
2. df_flow_mark[['风级','降水量']].diff().hist(color="k", alpha=0.5, bins=50);


3e6221bb17cf491e9ac27ec50dc54804.png


可以指定by关键字来绘制分组直方图:


1. data = pd.Series(np.random.randn(1000))
2. 
3. data.hist(by=np.random.randint(0, 4, 1000), figsize=(6, 4));


9c90b59e06894c068869b35b93f97c29.png


此外,还可以在DataFrame.plot.hist()中指定by关键字:

data = pd.DataFrame(
    {
        "a": np.random.choice(["x", "y", "z"], 1000),
        "b": np.random.choice(["e", "f", "g"], 1000),
        "c": np.random.randn(1000),
        "d": np.random.randn(1000) - 1
    }
)
data.plot.hist(by=["a", "b"], figsize=(10, 5));

9b2119a7d4b24cadaa4688351106b8ea.png

目录
相关文章
|
数据可视化 数据挖掘 大数据
Pandas数据分析:快速图表可视化各类操作详解+实例代码(三)
Pandas数据分析:快速图表可视化各类操作详解+实例代码(三)
407 0
Pandas数据分析:快速图表可视化各类操作详解+实例代码(三)
|
数据可视化 数据挖掘 大数据
Pandas数据分析:快速图表可视化各类操作详解+实例代码(二)
Pandas数据分析:快速图表可视化各类操作详解+实例代码(二)
197 0
Pandas数据分析:快速图表可视化各类操作详解+实例代码(二)
|
9月前
|
数据可视化 数据挖掘 Linux
【数据分析与可视化】Pandas可视化与数据透视表的讲解及实战(超详细 附源码)
【数据分析与可视化】Pandas可视化与数据透视表的讲解及实战(超详细 附源码)
202 0
|
数据挖掘 Python
Python数据分析与展示:pandas库统计分析函数-13
Python数据分析与展示:pandas库统计分析函数-13
189 0
Python数据分析与展示:pandas库统计分析函数-13
|
4月前
|
数据可视化 数据挖掘 Python
Pandas数据探索性可视化的最佳实践
【10月更文挑战第13天】数据可视化是数据分析中不可或缺的一环,它帮助我们更好地理解数据、发现趋势和模式,并有效地传达我们的发现。在Python领域,Pandas和Matplotlib是两个非常强大的库,它们提供了丰富的功能来进行数据分析和可视化。本文将介绍如何结合使用Pandas和Matplotlib进行数据探索性可视化的最佳实践。
87 9
|
4天前
|
数据采集 数据可视化 数据处理
Pandas高级数据处理:数据仪表板制作
《Pandas高级数据处理:数据仪表板制作》涵盖数据清洗、聚合、时间序列处理等技巧,解决常见错误如KeyError和内存溢出。通过多源数据整合、动态数据透视及可视化准备,结合性能优化与最佳实践,助你构建响应快速、数据精准的商业级数据仪表板。适合希望提升数据分析能力的开发者。
57 31
|
数据采集 数据可视化 数据处理
Python数据可视化:呈现世界大运会历史数据
Python数据可视化:呈现世界大运会历史数据
|
算法 大数据 数据挖掘
Pandas数据分析基础操作
最近出了几期pandas的函数用法和一些数据框操作的讲解文章,感觉效果还行——一些有幸能被推荐,让更多人看到,帮助到一些人的同时,我也收获了许多宝贵的改进建议——欢迎大家继续批评指正,我们一起互相进步。 最近有读者反映我的内容中一些常用的基础函数并没有经过讲解,导致“基础教程”并不“基础”。缺乏基础的读者并不能一次性在我的文章里快速学到技巧,因为去找别的教程来看懂我的教程的确浪费精力。 因此本期我们补一下pandas基础的操作,包括但不限于: 迭代(也有称作遍历循环的,具体请看案例) 统计函数 排序 删除列
Pandas数据分析基础操作
|
机器学习/深度学习 人工智能 数据挖掘
Pandas 数据分析模块|学习笔记
快速学习 Pandas 数据分析模块
137 0
|
数据可视化 Linux 索引
第四章 Pandas 统计分析基础(下)
第四章 Pandas 统计分析基础(下)
867 0
第四章 Pandas 统计分析基础(下)

热门文章

最新文章