技巧 | 一个相见恨晚的python数据分析库，一键生成超详细数据分析报告-阿里云开发者社区

技巧 | 一个相见恨晚的python数据分析库，一键生成超详细数据分析报告

2023-08-09 781

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 技巧 | 一个相见恨晚的python数据分析库，一键生成超详细数据分析报告

本期导读

大家好，我是欧K。

今天给大家安利一个python数据分析库【pandas_profiling】。

不用不知道，一用吓一跳，赶快来看看吧。

我们在进行数据分析，尤其是探索性分析时，往往需要根据数据的总体概况建立相关模型进行分析，pandas_profiling这个库可以一键生成数据分析报告，我们可以快速查看所有数据的分布以及各参数之间的相关性信息，给后期分析带来了极大的便利。

1. pandas_profiling安装

pip install pandas-profiling

注意：‘-’在中间，而非下划线。

2. pandas_profiling使用

以波士顿房价预测为例（经典数据集：鸢尾花分类数据集、波士顿房价预测数据集、泰坦尼克号生存分析数据集）：2.1 数据分析一般流程

需求分析
获取数据
数据预处理
划分数据集（特征值抽取）
特征工程
建模
模型评估与优化

2.2 pandas分析数据概况

导入数据集“boston.csv” ，使用data.head()查看前五行数据：

使用data.describe()查看整个数据集概况：

数据包括：

数据集行数
列平均值
列标准差
最小值、最大值
分位数

2.3 pandas_profiling分析数据概况

一行语句即可data.profile_report()：

一共包括6项数据：

Overview：数据概况
Variables：各变量分布情况
Interactions：变量间相关性
Correlations：相关性热力图
Missing values：缺失值
Sample：数据集部分示例

部分信息如下：

Overview：

Variables：

Interactions：

Correlations：

Missing values：

Sample：

2.4 导出html文件

执行语句profile.to_file()：

html文件链接: https://pan.baidu.com/s/1rcolHhlFbhLKtPiiMK0m4g 提取码: b252

总结

pandas_profiling作为pandas功能的扩展，可以快速生成详细的数据分析报告，非常适合处理数据探索分析的前期准备工作，对不太熟悉数据分析（尤其是特征抽取）的小伙伴是一个非常好用的工具。

END

以上就是本期为大家整理的全部内容了，赶快练习起来吧，喜欢的朋友可以 点赞、点在看 也可以分享到朋友圈让更多人知道哦

技巧 | 一个相见恨晚的python数据分析库，一键生成超详细数据分析报告

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

技巧 | 一个相见恨晚的python数据分析库，一键生成超详细数据分析报告

热门文章

最新文章

相关课程

相关电子书

推荐镜像