Python骚操作:一行代码实现探索性数据分析

简介: Python骚操作:一行代码实现探索性数据分析

dataprep.eda


在使用数据前,我们首先要做的是观察数据,包括查看数据的类型、数据的范围、数据的分布等。dataprep.eda是个非常不错的工具,它可以帮你快速生成数据概览。dataprep.eda包含的一些智能特性:


  • 为每个 EDA 任务选择正确的图形来可视化数据
  • 列类型推断(数字型、类别型和日期时间型)
  • 选择合适的时间单位(用户也可以指定)
  • 对数量庞大的类型数据输出清晰的可视化方案(用户也可以指定)

dataprep安装


安装dataprep仅需要执行pip instal dataprep即可,由于依赖比较多,安装过程比较慢,需要耐心等待。


640.png


如果报错,多半是权限问题,可以在后面加上--user


640.png


实例


为了看到这一点的实际应用,我们将使用一个泰坦尼克数据集,我们从数据集的概述开始:

from dataprep.eda import *
import pandas as pd
train_df = pd.read_csv('titanic/train.csv')
train_df

640.png


一行代码实现数据集可视化探索


plot(train_df)


640.png

640.png


plot(df)显示每列的分布。对于分类列,它以蓝色显示条形图。对于数字列,它以灰色显示直方图。从图的输出,我们知道:


  • 所有列:有1个标签列和11个特征
  • 分类栏:幸存,PassengerId,Pclass,姓名,性别,票证,出发。
  • 数字列:年龄,SibSp,parch,票价。
  • 缺失值:从图形标题中,我们可以找到3列缺失值。即年龄(19.9%),机舱(77.1%),登机(0.2%)。
  • 标签余额:来自幸存者的分布,我们知道,正面和负面的训练实例并不太平衡。有38%的数据带有标签Survived = 1。当前,列类型(即分类或数字)基于输入数据框中的列类型。因此,如果某些列类型被错误地标识,则可以在数据框中更改其类型。例如,通过调用df [col] = df [col] .astype(“ object”),可以将col标识为分类列。
for col in ['Survived', 'Pclass']:
train_df[col] = train_df[col].astype("object")
plot(train_df
)

640.png


要了解缺失值,我们首先调用plot_missing(df)来查看缺失值。


plot_missing(train_df)


640.png


顶部是可选的,比如选择spectrum可以更具体的看出缺失情况


640.png


选择heatmap可以用热力图形式查看缺失情况


640.png


接下来,我们决定如何处理缺失值:如果要删除缺失特征,删除包含缺失值的行还是填充缺失值?我们首先分析它们是否与生存相关。如果它们是相关的,则我们可能不想删除该特征。我们通过调用plot(df,x,y)分析两列之间的相关性。这里就不展示了,大家可以探索一下,代码如下


for feature in ['Age', 'Cabin', 'Embarked']:
plot(train_df, feature, 'Survived')


现在,我们逐一确定了有用的特征,并删除了无用的特征。虽然每个特征都可用于预测Survived,但是当我们将它们一起考虑时,我们可能不想要相关特征。因此,我们首先进行身份相关的特征。这可以通过简单地调用plot_correlation(df)来完成。


640.png

相关文章
|
20小时前
|
监控 Python
Python中的装饰器:提升代码灵活性和可维护性
在Python编程中,装饰器是一种强大的工具,可以提高代码的灵活性和可维护性。本文将深入探讨装饰器的概念、用法和实际应用,帮助读者更好地理解并运用装饰器来优化自己的Python代码。
|
1天前
|
算法 Java 编译器
优化Python代码性能的实用技巧
提高Python代码性能是每个开发者的关注焦点之一。本文将介绍一些实用的技巧和方法,帮助开发者优化他们的Python代码,提升程序的执行效率和性能。
|
2天前
|
数据采集 数据可视化 数据挖掘
如何利用Python中的Pandas库进行数据分析和可视化
Python的Pandas库是一种功能强大的工具,可以用于数据分析和处理。本文将介绍如何使用Pandas库进行数据分析和可视化,包括数据导入、清洗、转换以及基本的统计分析和图表绘制。通过学习本文,读者将能够掌握利用Python中的Pandas库进行高效数据处理和可视化的技能。
|
3天前
|
Python
Python中的装饰器:提升代码可读性与复用性
Python中的装饰器是一种强大的工具,能够提升代码的可读性和复用性。本文将深入探讨装饰器的原理、用法以及在实际项目中的应用,帮助读者更好地理解和利用这一特性,提升代码质量和开发效率。
|
4天前
|
机器学习/深度学习 数据可视化 算法
使用Python进行数据分析的5个必备技巧
【5月更文挑战第9天】本文介绍了Python数据分析的五个关键技巧:1) 使用Pandas进行数据处理和清洗;2) 利用NumPy进行高效数值计算;3) 通过Matplotlib和Seaborn创建可视化图表;4) 使用Scikit-learn执行机器学习任务;5) 在Jupyter Notebook中进行交互式分析和文档分享。这些技巧能提升数据分析的效率和准确性。
|
4天前
|
监控 Python
Python中的装饰器:提升代码可读性与可维护性
Python中的装饰器是一种强大的工具,可以在不修改函数源代码的情况下,增加新的功能。本文将介绍装饰器的基本概念,以及如何使用装饰器来提升代码的可读性和可维护性。通过实例演示,读者将了解装饰器在各种场景下的灵活运用,从而更好地理解并应用于实际开发中。
|
4天前
|
缓存 Python
Python中的装饰器:提升代码可读性与灵活性
在Python编程中,装饰器是一种强大的工具,可以通过在函数或方法周围包装额外的功能来提升代码的可读性和灵活性。本文将深入探讨装饰器的概念、用法和实际应用,帮助读者更好地理解并运用这一Python编程的利器。
|
5天前
|
数据采集 数据可视化 数据挖掘
Python 与 PySpark数据分析实战指南:解锁数据洞见
Python 与 PySpark数据分析实战指南:解锁数据洞见
|
5天前
|
缓存 并行计算 Serverless
优化Python代码性能的5个技巧
在日常Python编程中,代码性能的优化是一个重要的议题。本文介绍了5个实用的技巧,帮助你提高Python代码的执行效率,包括使用适当的数据结构、优化循环结构、利用内置函数、使用生成器表达式以及并行化处理。通过这些技巧,你可以更高效地编写Python代码,提升程序的性能和响应速度。
|
6天前
|
Python
探索Python中的装饰器:提升代码灵活性与可维护性
Python中的装饰器是一种强大的工具,可以在不改变原有代码结构的情况下,动态地添加功能或修改函数的行为。本文将深入探讨装饰器的原理、常见用法以及如何利用装饰器提升代码的灵活性和可维护性。