Pandas数据可视化(一)

简介: Pandas是Python数据分析的核心库,不仅用于数据加载和转换,还内置了简单的数据可视化功能。通过`.plot()`方法,可以创建条形图、折线图、直方图和饼图等,便于单变量分析。例如,用葡萄酒数据集展示了不同产区的葡萄酒数量,加利福尼亚占比最高。条形图适合比较类别间的差异,折线图则用于显示趋势。直方图用于数值分布,但对倾斜数据(极值影响)敏感。饼图展示类别占比,但不适用于大量分类。Pandas的可视化帮助我们理解数据集的结构和特征。

pandas库是Python数据分析的核心库 它不仅可以加载和转换数据,还可以做更多的事情:它还可以可视化 pandas绘图API简单易用,是pandas流行的重要原因之一


Pandas 单变量可视化


单变量可视化, 包括条形图、折线图、直方图、饼图等


数据使用葡萄酒评论数据集,来自葡萄酒爱好者杂志,包含10个字段,150929行,每一行代表一款葡萄酒


加载数据



条形图是最简单最常用的可视化图表 在下面的案例中,将所有的葡萄酒品牌按照产区分类,看看哪个产区的葡萄酒品种多:



先将plot需要的参数打包成一个字典,然后在使用**解包(防止传进去的成为一个参数)


上面的图表说明加利福尼亚生产的葡萄酒比其他省都多

 

也可以折算成比例, 计算加利福尼亚葡萄酒占总数的百分比 :




条形图(柱状图)非常灵活: 高度可以代表任何东西,只要它是数字即可 每个条形可以代表任何东西,只要它是一个类别即可。


也可以用来展示《葡萄酒杂志》(Wine Magazine)给出的评分数量的分布情况:



如果要绘制的数据不是类别值,而是连续值比较适合使用折线图 :



柱状图和折线图区别 柱状图:简单直观,很容易根据柱子的长短看出值的大小,易于比较各组数据之间的差别


折线图: 易于比较各组数据之间的差别; 能比较多组数据在同一个维度上的趋势; 每张图上不适合展示太多折线


面积图就是在折线图的基础上,把折线下面的面积填充颜色 :




直方图



直方图看起来很像条形图, 直方图是一种特殊的条形图,它可以将数据分成均匀的间隔,并用条形图显示每个间隔中有多少行, 直方图柱子的宽度代表了分组的间距,柱状图柱子宽度没有意义


直方图缺点:将数据分成均匀的间隔区间,所以它们对歪斜的数据的处理不是很好:




在第一个直方图中,将价格>200的葡萄酒排除了。


在第二个直方图中,没有对价格做任何处理,由于有个别品种的酒价格极高,导致刻度范围变大,导致直方图的价格分布发生变化 。


数据倾斜: 当数据在某个维度上分布不均匀,称为数据倾斜


  1. 一共15万条数据,价格高于1500的只有三条


  1. 价格高于500的只有73条数据,说明在价格这个维度上,数据的分布是不均匀的


  1. 直方图适合用来展示没有数据倾斜的数据分布情况,不适合展示数据倾斜的数据


饼图


饼图也是一种常见的可视化形式


reviews['province'].value_counts().head(10).plot.pie()



饼图的缺陷:饼图只适合展示少量分类在整体的占比


  1. 如果分类比较多,必然每个分类的面积会比较小,这个时候很难比较两个类别


  1. 如果两个类别在饼图中彼此不相邻,很难进行比较


  1. 可以使用柱状图图来替换饼图



Pandas数据可视化(二)+https://developer.aliyun.com/article/1543877?spm=a2c6h.13148508.setting.15.1fa24f0eEjX8nS


相关文章
|
12月前
|
数据可视化 Python
python开发低代码数据可视化大屏:pandas.read_excel读取表格
python开发低代码数据可视化大屏:pandas.read_excel读取表格
236 0
|
10天前
|
数据可视化 数据挖掘 API
Pandas数据可视化(二)
**Pandas数据可视化教程聚焦于双变量分析,如散点图和堆叠图。散点图用于揭示两个变量间的关联,例如价格和评分,较大的点可能表示价格更高的葡萄酒得分更高。当数据过多时,可使用hexplot减少过度绘制,提供密度信息。堆叠图适合展示类别变量的分布,如不同葡萄酒类型的评分分布,显示了Chardonnay等品种的受欢迎程度。**
|
12月前
|
JSON 数据可视化 数据挖掘
python数据可视化开发(2):pandas读取Excel的数据格式处理(数据读取、指定列数据、DataFrame转json、数学运算、透视表运算输出)
python数据可视化开发(2):pandas读取Excel的数据格式处理(数据读取、指定列数据、DataFrame转json、数学运算、透视表运算输出)
292 0
|
2月前
|
数据可视化 数据挖掘 定位技术
《Pandas 简易速速上手小册》第9章:Pandas 数据可视化(2024 最新版)
《Pandas 简易速速上手小册》第9章:Pandas 数据可视化(2024 最新版)
50 2
|
2月前
|
JSON JavaScript 数据可视化
数据可视化:将Python的Pandas与Vue结合展示交互式图表
【4月更文挑战第10天】本文探讨了如何利用Python的Pandas库和前端框架Vue.js创建交互式数据可视化应用。通过Pandas进行数据处理和分析,Vue.js构建用户界面,结合两者可实现动态图表展示。步骤包括数据准备、转换为JSON、创建Vue项目、发送数据请求、渲染图表、添加交互性和优化性能。这种结合为数据理解和探索提供了高效、用户友好的解决方案,适应于数据爱好者和专家,预示着未来数据可视化将更智能、互动。
|
2月前
|
数据采集 Web App开发 数据可视化
Python爬虫技术与数据可视化:Numpy、pandas、Matplotlib的黄金组合
Python爬虫技术与数据可视化:Numpy、pandas、Matplotlib的黄金组合
|
2月前
|
数据可视化 数据挖掘 Python
Pandas 高级教程——数据可视化
Pandas 高级教程——数据可视化
104 3
|
12月前
|
数据可视化 索引 Python
Plotly 和 Pandas:强强联手实现有效的数据可视化
Plotly 和 Pandas:强强联手实现有效的数据可视化
61 0
|
11月前
|
数据可视化 数据处理 Python
Pandas+Pyecharts | 北京近五年历史天气数据可视化
Pandas+Pyecharts | 北京近五年历史天气数据可视化
|
11月前
|
数据可视化 数据挖掘 定位技术
Pandas+Pyecharts | 广州市已成交房源信息数据可视化
Pandas+Pyecharts | 广州市已成交房源信息数据可视化