Pandas数据显示不全?快来了解这些设置技巧! ⛵

简介: 资深工程师最常用的 Pandas 显示设置技巧!Pandas数据显示不全?快来了解这些设置技巧,自定义显示的行数、列数、列宽,使浮点列之间的小数位精度保持一致、禁用科学记数法…
5055f495fc3b44a6a8c8d00176e542f7~tplv-k3u1fbpfcp-zoom-1.image
💡 作者: 韩信子@ ShowMeAI
📘 数据分析实战系列http://www.showmeai.tech/tutorials/40
📘 本文地址http://www.showmeai.tech/article-detail/285
📢 声明:版权所有,转载请联系平台与作者并注明出处
📢 收藏 ShowMeAI查看更多精彩内容

📌 Pandas 数据显示的问题

a449586cbffb4a31a55a92cd277116de~tplv-k3u1fbpfcp-zoom-1.image

我们在应用 Python 进行数据分析挖掘和机器学习时,最常用的工具库就是 Pandas,它可以帮助我们快捷地进行数据处理和分析。

4539b793d5ee4810914f007103da692a~tplv-k3u1fbpfcp-zoom-1.image
对 Pandas 不熟悉的同学,一定要学习下这个宝藏工具库哦!ShowMeAI 给大家做了一个详尽的教程,可以在 📘 Python 数据分析教程 中查看,我们同时也制作了 📘 Pandas速查表,方便大家快速查找需要的功能。如果你喜欢跟着视频学习,那么推荐B站这个 📘 快速实战教程

但在使用 Pandas 时,我们经常会遇到像下面这样一些问题,它很影响我们查看数据了解详情。

🔔 长文本无法显示全

对于非常长的字段可能显示不全,如下图中,URL 被缩短显示。

2d0087b3b25e4a67a5619f35a4d34ebd~tplv-k3u1fbpfcp-zoom-1.image

🔔 科学计数法显示失去细节

Pandas 默认使用『科学计数法』显示大浮点数,例如 1000000.5 显示为 1.000e+06 。对于数值较大的数字,就可能有如下的显示,这导致我们看不到具体数值。

819205584b074b558ca619e354eaa04c~tplv-k3u1fbpfcp-zoom-1.image

🔔 小数位精度不一致

对于浮点型的字段列,Pandas 可能有不同的位精度。例如下图中,col_1 精确到小数点后一位,而 col_2 精确到小数点后三位。有时候精度的不一致可能会有信息的差异。

3e6ba450c68645799a13296420fef7e1~tplv-k3u1fbpfcp-zoom-1.image

在本篇内容中,ShowMeAI 将介绍如何使用 Pandas 自定义设置来解决诸如上述的问题。主要的设置包括下面内容:

  • 自定义要显示的行数
  • 自定义要显示的列数
  • 自定义列宽
  • 使浮点列之间的小数位精度保持一致
  • 禁用科学记数法
  • 其他用法
注意:以上设置仅更改数据的显示呈现方式,实际并不会影响Dataframe存储的数据。

📌 Pandas自定义显示设置

fc24b2ed69c64f5e97fc963511083c28~tplv-k3u1fbpfcp-zoom-1.image

💡 自定义显示行数

打印大 Dataframe(行列数很多的数据)时,Pandas 默认显示前 5 行和后 5 行,如下图所示。

f0f5411f4c4c41e7b4000995681dd9f4~tplv-k3u1fbpfcp-zoom-1.image

我们可以通过设置显示选项 display.max_rows 来更改要显示的行数,比如我们将其设置为4。

pd.set_option("display.max_row", 4)
df
7e849a4e3fec4df6a32e9913fa8b5cb4~tplv-k3u1fbpfcp-zoom-1.image

我们可以使用重置选项 pd.reset_option("display.max_rows") 恢复默认行数显示设置。

💡 自定义显示列数

同样的道理,我们可以通过设置 display.max_columns 自定义输出 Dataframe 时要显示的列数。

pd.set_option("display.max_columns", 6)
df
6b383a7ff4f54fc89b18862b03974d27~tplv-k3u1fbpfcp-zoom-1.image

我们甚至可以设置 pd.set_option('display.max_columns',` `None) 来显示所有列(但是大家需要注意一下内存使用,这个操作可能让 Jupyter Notebook 一下占用特别多资源)。

我们同样可以使用 pd.reset_option("display.max_columns") 重置返回到默认设置。

💡 自定义列宽

在下图中,我们看不到前两行的全文,因为它们的字符太长(长度超过了 50)。

0808ad1a99204ad09e4435b5d87cda80~tplv-k3u1fbpfcp-zoom-1.image

我们把设置 display.max_colwidth调整到 70,就可以看到全文了,如下图所示。

pd.set_option("display.max_colwidth", 70)
df
2b216327af054fc5833d3ca42158bea6~tplv-k3u1fbpfcp-zoom-1.image

对这个设置重置的操作依旧是pd.reset_option("display.max_colwidth")

💡 设置字段小数位精度一致

前面提到的一个例子中,col_1col_2 的小数位精度不一致:

b07a38491db849a5ba6ee2f1c52a033c~tplv-k3u1fbpfcp-zoom-1.image

我们可以通过设置 display.float_format"{:.2f}".format 使格式一致,如下图所示。

该选项只会影响浮点列,而不影响整数列。
pd.set_option("display.float_format", "{:.2f}".format)
df
7ba391a9b63a46d6821514deda6286b3~tplv-k3u1fbpfcp-zoom-1.image

对这个设置重置的操作是 pd.reset_option("display.float_format")

💡 禁用科学计数法

Pandas 默认以科学计数法显示较大的浮点值。

eec53ce71c0e4093adb2feacac743591~tplv-k3u1fbpfcp-zoom-1.image

通过设置 display.float_format"{:,.2f}".format,我们可以为千位添加分隔符。

pd.set_option("display.float_format", "{:,.2f}".format)
df
53bd2c30c03c4ce8a7682d9de6840fed~tplv-k3u1fbpfcp-zoom-1.image

我们甚至可以添加货币符号在数值前面,比如我们把 display.float_format 设置为 "$ {:,.2f}".format,得到如下结果:

pd.set_option("display.float_format", "$ {:,.2f}".format)
df
061b5ebab53c44a9b0378467c2e31ad0~tplv-k3u1fbpfcp-zoom-1.image

💡 其他设置

上面列到的是一些最常用的设置,如果我们记不住这些设置名称,或者我们想了解全部可以调整的显示设置,可以怎么办呢?实际上大家可以借助pd.describe_option()获得所有可用显示设置的列表。

针针对某个特定的显示设置,可以在 pd.describe_option()中传入想调整的显示设置名称来获取使用细节,例如我们运行pd.describe_option("max_rows")将打印描述 display.max_rows使用细节,如下图所示。

pd.describe_option("max_rows")
325d66ce26fa4a918704d1161efef5be~tplv-k3u1fbpfcp-zoom-1.image

参考资料

e9190f41b8de4af38c8a1a0c96f0513b~tplv-k3u1fbpfcp-zoom-1.image

目录
相关文章
|
1月前
|
存储 人工智能 自然语言处理
Pandas数据应用:自然语言处理
本文介绍Pandas在自然语言处理(NLP)中的应用,涵盖数据准备、文本预处理、分词、去除停用词等常见任务,并通过代码示例详细解释。同时,针对常见的报错如`MemoryError`、`ValueError`和`KeyError`提供了解决方案。适合初学者逐步掌握Pandas与NLP结合的技巧。
70 20
|
11天前
|
监控 物联网 数据处理
Pandas高级数据处理:数据流式计算
本文介绍了如何使用 Pandas 进行流式数据处理。流式计算能够实时处理不断流入的数据,适用于金融交易、物联网监控等场景。Pandas 虽然主要用于批处理,但通过分块读取文件、增量更新 DataFrame 和使用生成器等方式,也能实现简单的流式计算。文章还详细讨论了内存溢出、数据类型不一致、数据丢失或重复及性能瓶颈等常见问题的解决方案,并建议在处理大规模数据时使用专门的流式计算框架。
138 100
Pandas高级数据处理:数据流式计算
|
1月前
|
存储 数据挖掘 计算机视觉
Pandas数据应用:图像处理
Pandas 是一个强大的 Python 数据分析库,主要用于处理结构化数据。尽管它不是专门为图像处理设计的,但可以利用其功能辅助图像处理任务。本文介绍如何使用 Pandas 进行图像处理,包括图像读取、显示、基本操作及常见问题解决方法。通过代码案例解释如何将图像转换为 DataFrame 格式,并探讨数据类型不匹配、内存溢出和颜色通道混淆等问题的解决方案。总结中指出,虽然 Pandas 可作为辅助工具,但在实际项目中建议结合专门的图像处理库如 OpenCV 等使用。
66 18
|
1月前
|
机器学习/深度学习 存储 算法
Pandas数据应用:客户流失预测
本文介绍如何使用Pandas进行客户流失预测,涵盖数据加载、预处理、特征工程和模型训练。通过解决常见问题(如文件路径错误、编码问题、列名不一致等),确保数据分析顺利进行。特征工程中创建新特征并转换数据类型,为模型训练做准备。最后,划分训练集与测试集,选择合适的机器学习算法构建模型,并讨论数据不平衡等问题的解决方案。掌握这些技巧有助于有效应对实际工作中的复杂情况。
142 95
|
1月前
|
机器学习/深度学习 数据采集 JSON
Pandas数据应用:机器学习预处理
本文介绍如何使用Pandas进行机器学习数据预处理,涵盖数据加载、缺失值处理、类型转换、标准化与归一化及分类变量编码等内容。常见问题包括文件路径错误、编码不正确、数据类型不符、缺失值处理不当等。通过代码案例详细解释每一步骤,并提供解决方案,确保数据质量,提升模型性能。
150 88
|
30天前
|
数据采集 存储 供应链
Pandas数据应用:库存管理
本文介绍Pandas在库存管理中的应用,涵盖数据读取、清洗、查询及常见报错的解决方法。通过具体代码示例,讲解如何处理多样数据来源、格式不一致、缺失值和重复数据等问题,并解决KeyError、ValueError等常见错误,帮助提高库存管理效率和准确性。
106 72
|
4天前
|
数据采集 数据可视化 数据处理
Pandas高级数据处理:数据仪表板制作
《Pandas高级数据处理:数据仪表板制作》涵盖数据清洗、聚合、时间序列处理等技巧,解决常见错误如KeyError和内存溢出。通过多源数据整合、动态数据透视及可视化准备,结合性能优化与最佳实践,助你构建响应快速、数据精准的商业级数据仪表板。适合希望提升数据分析能力的开发者。
57 31
|
5天前
|
数据采集 并行计算 数据可视化
Pandas高级数据处理:数据报告生成实战指南
数据报告生成面临数据质量、计算性能、呈现形式和自动化等核心挑战。常见问题包括缺失值导致统计失真、内存溢出及可视化困难。解决方案涵盖数据清洗、分块处理、安全绘图模板等。通过模块化设计、异常处理机制和性能优化策略,如使用`category`类型、并行计算等,可大幅提升效率。最佳实践建议建立数据质量检查清单、版本控制和自动化测试框架,确保系统具备自适应能力,提升报告生成效率300%以上。
38 12
|
1月前
|
数据采集 机器学习/深度学习 搜索推荐
Pandas数据应用:推荐系统
在数字化时代,推荐系统是互联网公司的重要组成部分,Pandas作为Python的强大数据分析库,在数据预处理和特征工程中发挥关键作用。常见问题包括缺失值、重复值处理及数据类型转换,解决方案分别为使用`fillna()`、`drop_duplicates()`和`astype()`等函数。常见报错如KeyError、ValueError和MemoryError可通过检查列名、确保数据格式正确及分块读取数据等方式解决。合理运用Pandas工具,可为构建高效推荐系统奠定坚实基础。
65 18
Pandas数据应用:推荐系统
|
1月前
|
数据采集 存储 算法
Pandas数据应用:市场篮子分析
市场篮子分析是一种用于发现商品间关联关系的数据挖掘技术,广泛应用于零售业。Pandas作为强大的数据分析库,在此领域具有显著优势。本文介绍了市场篮子分析的基础概念,如事务、项集、支持度、置信度和提升度,并探讨了数据预处理、算法选择、参数设置及结果解释中的常见问题与解决方案,帮助用户更好地进行市场篮子分析,为企业决策提供支持。
70 29