使用pandas_profiling对数据探索性分析

简介: 使用pandas_profiling对数据探索性分析

1pandas_profiling简介

pandas_profiling是一个基于pandas库的开源数据分析工具,能快速对DataFrame中的数据进行统计分析,并生成数据报告。它可以极大简化数据分析流程,自动计算各个特征之间的相关性、缺失值分布、数据类型等。pandas_profiling的主要功能包括:

  • 计算各数字类型特征的基本统计量,如平均值、中位数、方差等
  • 绘制各分类类型特征的频数分布直方图
  • 检测并标注出缺失值
  • 利用相关系数矩阵检测变量间的相关性
  • 自动对异常值进行标注
  • 生成各种图表,直观显示各特征的统计分布 pandas_profiling可以快速概览原始数据的情况,对进行数据分析和特征工程非常有帮助。

2安装pandas_profiling

pandas_profiling可以通过pip直接安装:

pip install pandas-profiling

安装完成后,就可以导入并使用这个模块了:

import pandas as pd
import pandas_profiling

3pandas_profiling使用

pandas_profiling的使用非常简单,只需要对pandas的DataFrame运行profile_report方法,就可以生成分析报告。例如有这样一个DataFrame:

data = pd.DataFrame({
    'name':['张三', '李四', '王五','赵六', '陈七', '吴八'],
    'age':[22, 23, 24,32, 33, 36],
    'gender':['男','女', '男','男','女','男'],
    'salary': [5200, 1500,19000,30000, 33000, 31000],
})

直接使用:

pandas_profiling.ProfileReport(data)

就可以生成一份数据分析报告,报告页面如下图所示:

从报告可以清晰地看到数据中的各特征分布,包括:

  • Overview概览:显示各特征的数据类型、缺失值比例、唯一值数等
  • Variables变量:显示各数字特征的统计量分布,及分类特征的频数分布
  • Correlations相关性:显示各特征间的相关性矩阵
  • Missing values缺失值:显示缺失值的数量及比例
  • Warnings警告:会标注出一些异常值或可能存在问题的值 这样的报告可以非常快速直观地了解一个陌生数据集的整体情况。

为报告设置标题

可以通过title参数为报告设置自定义的标题:

profile = pandas_profiling.ProfileReport(data, title="用户数据报告")

保存报告到文件

默认情况下,ProfileReport会直接在Jupyter Notebook里展示报告。如果要保存报告html文件,可以使用to_file方法:

profile.to_file(output_file="report.html")

这样就会将报告保存到report.html文件中。

自定义报告内容

可以通过设置minimal参数来自定义报告的内容:

profile = pandas_profiling.ProfileReport(
    data,
    minimal=True
)

设置为True后,报告会只包含概览和变量分析,不包括相关性分析、缺失值等部分。也可以单独控制要展示的内容。

以上只是一个很简单的案例,对于复杂数据也可以使用以上方法,快速探索数据之间的关系。

目录
相关文章
|
8天前
|
分布式计算 数据可视化 数据挖掘
Pandas数据应用:社交媒体分析
本文介绍如何使用Pandas进行社交媒体数据分析,涵盖数据获取、预处理、探索性分析和建模的完整流程。通过API获取数据并转换为DataFrame格式,处理缺失值和数据类型转换问题。利用Matplotlib等库进行可视化,展示不同类型帖子的数量分布。针对大规模数据集提供内存优化方案,并结合TextBlob进行情感分析。最后总结常见问题及解决方案,帮助读者掌握Pandas在社交媒体数据分析中的应用。
137 96
|
6天前
|
数据采集 数据挖掘 数据处理
Pandas数据应用:金融数据分析
本文介绍如何使用Pandas进行金融数据分析,涵盖数据导入、清洗、转换等基础操作。通过处理缺失值、重复值及数据类型不匹配等问题,结合时间序列分析和大规模数据处理技巧,帮助读者掌握常见问题的解决方案。案例分析展示了计算每日收益率并绘制图表的具体步骤。
37 14
|
4天前
|
存储 数据采集 数据挖掘
Pandas数据应用:用户行为分析
本文介绍了如何使用Pandas进行用户行为分析,涵盖从基础概念到实际应用的多个方面。首先简要介绍了Pandas的安装与基本功能,接着详细讲解了数据加载、初步探索及常见问题(如数据缺失、重复记录和时间戳格式不统一)的处理方法。随后探讨了用户活跃度和路径分析等模式挖掘技巧,并总结了常见报错及避免措施。通过掌握这些内容,读者可以更高效地进行用户行为分析,提升产品设计和用户体验。
46 8
|
2月前
|
数据可视化 Python
Pandas 相关性分析
Pandas 相关性分析
39 1
|
3月前
|
数据可视化 数据挖掘 Python
Pandas数据探索性可视化的最佳实践
【10月更文挑战第13天】数据可视化是数据分析中不可或缺的一环,它帮助我们更好地理解数据、发现趋势和模式,并有效地传达我们的发现。在Python领域,Pandas和Matplotlib是两个非常强大的库,它们提供了丰富的功能来进行数据分析和可视化。本文将介绍如何结合使用Pandas和Matplotlib进行数据探索性可视化的最佳实践。
70 9
|
4月前
|
数据采集 数据挖掘 数据处理
Pandas实践:南京地铁数据处理分析
Pandas实践:南京地铁数据处理分析
60 2
|
4月前
|
数据挖掘 Python
掌握Pandas中的相关性分析:corr()方法详解
掌握Pandas中的相关性分析:corr()方法详解
399 0
|
4月前
|
数据处理 Python
Pandas实践(续):2023年南京地铁客运量分析
Pandas实践(续):2023年南京地铁客运量分析
68 0
|
5月前
|
分布式计算 数据可视化 大数据
Vaex :突破pandas,快速分析100GB大数据集
Vaex :突破pandas,快速分析100GB大数据集
122 3