羡慕 Excel 的高级选择与文本框颜色呈现?Pandas 也可以拥有!! ⛵

简介: 通过 Styler API 的设置,Pandas 也能像 Excel 那样进行『条件选择』和 『文本框颜色』设置,一眼获取最关键信息!本文讲解 Pandas 使用单色(或渐变色)高亮显示缺失值、最大值、最小值、范围值等【数据与代码亲测可运行】

💡 作者: 韩信子@ ShowMeAI
📘 数据分析◉技能提升系列https://www.showmeai.tech/tutorials/33
📘 数据分析实战系列https://www.showmeai.tech/tutorials/40
📘 本文地址https://www.showmeai.tech/article-detail/293
📢 声明:版权所有,转载请联系平台与作者并注明出处
📢 收藏 ShowMeAI查看更多精彩内容

用过 Excel 的数据分析师,对 Excel 的『条件选择』与『格式呈现』功能大都印象深刻。下方动图演示了 Excel『数据选择&底色填充高亮』功能。如果我们需要『选择大于100的所有产品取值并对单元格填充红色』,直接如下图所示,在『条件格式』中选择『突出显示单元格规则』即可进行设置。

习惯用 Python 进行数据分析挖掘的我们,是否可以完成相同的高级显示呢?答案是,可以的!!

在本文中 ShowMeAI 将带大家在 Pandas Dataframe 中完成多条件数据选择及各种呈现样式的设置。

💡 案例&背景

我们从一个电商销售的案例背景讲起,下图的数据透视表(pandas pivot table)显示了 2016 年至 2022 年不同产品的总销售额。数据可以在ShowMeAI的百度网盘获取,数据读取与处理代码如下:

🏆 实战数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『 实战』,或者点击 这里 获取本文 [[6] Pandas 使用 Styler API 设置多条件数据选择&丰富的呈现样式]( https://www.showmeai.tech/article-detail/293)conditional formatting in pandas 数据集

ShowMeAI官方GitHubhttps://github.com/ShowMeAI-Hub

import pandas as pd
data = pd.read_excel('data.xlsx')
df_pivoted = pd.pivot_table(data, index='Year')

💰 你能找出 2016 年最畅销的产品吗

  • 你可能很快能找到答案 Product_B,总销售额为 169,但我们仅通过透视表去定位结果非常不方便。
  • Pandas 可以很便捷地用条件语句去找到结果,但在原表对应还是不容易。

💰 如果我们为每年最畅销的产品上色呢,如下图所示用底色突出显示之后,回答上面的问题是不是容易多了

接下来演示在 Pandas 中完成这个操作的详细步骤!

💡 内容覆盖

本篇后续内容覆盖以下高级功能:

  • 突出缺失值
  • 突出显示每行/列中的最大值(或最小值)
  • 突出显示范围内的值
  • 绘制柱内条形图
  • 使用颜色渐变突出显示值
  • 组合显示设置功能
注意:强烈建议大家使用最新版本的 Pandas。你可以通过命令行命令 pip install --upgrade pandas获取或升级 Pandas 为最新稳定版本。

① 突出缺失值

在 Pandas Dataframe 中,我们可以使用 dataframe.style.highlight_null() 为空值着色。下图中我们为数据透视表 df_pivoted 高亮缺失值。

# 突出显示空值
df_pivoted.style.highlight_null()

大家发现了,使用 .highlight_null 默认是以红色突出显示 nan 缺失值。不喜欢红色?没关系,颜色可以调!

我们可以使用自定义参数对对缺失值的文本和背景进行设定,比如 props='color:white;background-color:black' 可以设定背景色为黑色文本为白色,如下图所示:

# 背景为黑色,文本为白色,突出显示空值
df_pivoted.style.highlight_null(props='color:white;background-color:black')

通过高亮,我们可以很快在表中发现2018年 Product_H 没有卖掉的信息。

② 突出显示最大值(或最小值)

要突出显示每列中的最大值,我们可以使用 dataframe.style.highlight_max()最大值着色,最终结果如下图所示。

# 背景为绿色,文本为白色,突出显示每一列最大值
df_pivoted.style.highlight_max(props='color:white;background-color:green')

那如果我们想显示的是每一行的最大值呢?我们可以通过设定参数 axis=1 来实现,如下图所示。

# 背景为绿色,文本为白色,突出显示每一行最大值
df_pivoted.style.highlight_max(props='color:white;background-color:green', axis=1)

注意:同样可以使用方法 dataframe.style.highlight_min() 使用适当的参数为行/列中的最小值着色。

③ 突出显示范围内的值

假设我们要突出显示 100 到 200 之间的值,这个怎么实现呢?我们可以通过 dataframe.style.highlight_between(left, right) 来实现这个功能。如下图是对 100 到 200 之间的数填充黄色底色。

# 背景为黄色,文本为黑色,突出显示 100 到 200 之间的值
df_pivoted.style.highlight_between(left=100, right=200, props='color:black;background-color:yellow')

④ 绘制柱内条形图

可视化图表直观又炫酷!我们可不可以把这种呈现引入到 Pandas 中呢?当然可以!!

以条形图为例。通过 dataframe.style.bar() 可以创建条形图,更直观地显示数值的大小,如下图所示,红色的柱子长度对应单元格内的数值大小。

# 绘制柱内内条形图
df_pivoted.style.bar()

当然也可以自定义条形图的颜色和大小!如下图所示,设定了颜色和宽高等参数。

# 绘制柱内内条形图
df_pivoted.style.bar(color='lightblue',height=70,width=70)

⑤ 使用颜色渐变突出显示值

我们还可以用颜色渐变来突出显示整个列,具体实现通过 dataframe.style.background_gradient() 完成。如下图所示,在图像中,随着值的增加,颜色会从红色变为绿色。你可以设置 subset=None 将这个显示效果应用于整个Dataframe。

# 为列设置颜色渐变值
df_pivoted.style.background_gradient(cmap='RdYlGn',subset=['Product_C'])

⑥ 组合显示设置功能

是否可以在数据中同时突出显示最小值、最大值和缺失值呢?可以!!

可以定义一个函数,该函数突出显示列中的 min、max 和 nan 值。当前是对 Product_C 这一列进行了突出显示,我们可以设置 subset=None来把它应用于整个Dataframe。

def highlight_dataframe(df, subset= None):

    df = df.style.highlight_max(props='color:white;background-color:green', subset=subset) \
    .highlight_min(props='color:white;background-color:red', subset=subset) \
    .highlight_null(props='color:white;background-color:black', subset=subset)
    
    return df
highlight_dataframe(df_pivoted, subset=['Product_C'])

参考文献

目录
相关文章
|
2月前
|
数据挖掘 Python
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
120 0
|
4月前
|
数据可视化 数据挖掘 数据处理
进阶 pandas DataFrame:挖掘高级数据处理技巧
【5月更文挑战第19天】本文介绍了Pandas DataFrame的高级使用技巧,包括数据重塑(如`pivot`和`melt`)、字符串处理(如提取和替换)、日期时间处理(如解析和时间序列操作)、合并与连接(如`merge`和`concat`),以及使用`apply()`应用自定义函数。这些技巧能提升数据处理效率,适用于复杂数据分析任务。推荐进一步学习和探索Pandas的高级功能。
|
1月前
|
Python
【Python】解决pandas读取excel,以0向前填充的数字会变成纯数字
本文介绍了两种解决Python使用pandas库读取Excel时,数字前填充的0丢失问题的方法:一是在读取时指定列以字符串格式读取,二是在Excel中预先将数值转换为文本格式。
74 0
【Python】解决pandas读取excel,以0向前填充的数字会变成纯数字
|
22天前
|
算法 数据挖掘 Java
日常工作中,Python+Pandas是否能代替Excel+VBA?
日常工作中,Python+Pandas是否能代替Excel+VBA?
|
1月前
|
Python
Pandas 读取 Excel 斜着读
Pandas 读取 Excel 斜着读
15 0
|
1月前
|
关系型数据库 MySQL Shell
pandas读取mysql并导出为excel
pandas读取mysql并导出为excel
|
2月前
|
数据采集 数据挖掘 数据处理
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
【7月更文挑战第14天】Python的Pandas和NumPy库是数据分析的核心工具。Pandas以其高效的数据处理能力,如分组操作和自定义函数应用,简化了数据清洗和转换。NumPy则以其多维数组和广播机制实现快速数值计算。两者协同工作,如在DataFrame与NumPy数组间转换进行预处理,提升了数据分析的效率和精度。掌握这两者的高级功能是提升数据科学技能的关键。**
32 0
|
2月前
|
数据采集 机器学习/深度学习 数据处理
数据科学家的秘密武器:Pandas与NumPy高级应用实战指南
【7月更文挑战第14天】Pandas与NumPy在数据科学中扮演关键角色。Pandas的DataFrame和Series提供高效数据处理,如数据清洗、转换,而NumPy则以ndarray为基础进行数值计算和矩阵操作。两者结合,从数据预处理到数值分析,形成强大工具组合。示例展示了填充缺失值、类型转换、矩阵乘法、标准化等操作,体现其在实际项目中的协同效用。掌握这两者,能提升数据科学家的效能和分析深度。**
27 0
|
2月前
|
数据处理 Python
数据科学进阶之路:Pandas与NumPy高级操作详解与实战演练
【7月更文挑战第13天】探索数据科学:Pandas与NumPy提升效率的高级技巧** - Pandas的`query`, `loc`和`groupby`用于复杂筛选和分组聚合,例如筛选2023年销售额超1000的记录并按类别计总销售额。 - NumPy的广播和向量化运算加速大规模数据处理,如快速计算两个大数组的元素级乘积。 - Pandas DataFrame基于NumPy,二者协同加速数据处理,如将DataFrame列转换为NumPy数组进行标准化再回写,避免链式赋值。 掌握这些高级操作,实现数据科学项目的效率飞跃。
44 0
|
2月前
|
数据挖掘 数据处理 决策智能
Python 数据分析工具箱:深挖 Pandas 与 NumPy 高级功能,驱动智能决策
【7月更文挑战第12天】Python的Pandas和NumPy是数据分析的基石。Pandas提供灵活的数据结构如DataFrame,用于高效处理关系型数据,而NumPy则以多维数组和科学计算功能著称。两者结合,支持数据合并(如`pd.merge`)、时间序列分析(`pd.to_datetime`)和高级数组运算。通过掌握它们的高级特性,能提升数据分析效率,应用于各领域,如金融风险评估、市场分析和医疗预测,助力数据驱动的决策。学习和熟练运用Pandas与NumPy是成为出色数据分析师的关键。
40 0