python数据分析——数据预处理

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 数据预处理是数据分析过程中不可或缺的一环,它的目的是为了使原始数据更加规整、清晰,以便于后续的数据分析和建模工作。在Python数据分析中,数据预处理通常包括数据清洗、数据转换和数据特征工程等步骤。

数据预处理


前言

python数据分析——数据预处理

数据预处理是数据分析过程中不可或缺的一环,它的目的是为了使原始数据更加规整、清晰,以便于后续的数据分析和建模工作。在Python数据分析中,数据预处理通常包括数据清洗、数据转换和数据特征工程等步骤。

数据清洗是数据预处理的第一步,主要是为了解决数据中的缺失值、异常值、重复值等问题。Python提供了丰富的库和工具来处理这些问题,如pandas库可以帮助我们方便地处理数据框(DataFrame)中的缺失值和重复值。对于异常值,我们可以通过统计分析、可视化等方法来识别和处理。

数据转换是为了将数据转换成更适合分析的形式。常见的数据转换包括数据标准化、归一化、离散化等。例如,对于连续型变量,我们可以通过标准化或归一化将其转换到同一量纲下,以便于后续的比较和分析。对于分类变量,我们可以使用独热编码(One-Hot Encoding)将其转换为数值型数据。

数据特征工程则是为了从原始数据中提取出更多有用的信息,以提高模型的性能。特征工程通常包括特征选择、特征构造和特征降维等步骤。在Python中,我们可以使用scikit-learn等机器学习库来进行特征选择和降维,同时也可以利用自己的业务知识来构造新的特征。

在进行数据预处理时,我们还需要注意数据的质量和完整性。如果数据存在严重的质量问题或缺失过多,那么即使进行了再精细的数据预处理也难以得到准确的分析结果。因此,在进行数据分析之前,我们需要对数据的质量和完整性进行充分的评估和清理。

综上所述,数据预处理是Python数据分析中不可或缺的一环。通过数据清洗、数据转换和数据特征工程等步骤,我们可以使原始数据更加规整、清晰,为后续的数据分析和建模工作奠定坚实的基础。同时,我们也需要注意数据的质量和完整性,以确保分析结果的准确性和可靠性。


一、熟悉数据

1.1 数据表的基本信息查看

【例】餐饮企业的决策者想要了解影响餐厅销量的一些因素,如天气的好坏、促销活动是否能够影响餐厅的销量,周末和非周末餐厅销量是否有大的差别。餐厅收集的数据存储在sales.csv中,前五行的数据如下所示。请利用Python查看数据集的基本信息。

关键技术:使用info()方法查看数据基本类型。

在该例中,首先使用pandas库中的read_csv方法导入sales.csv文件,然后使用info()方法,查看数据的基本信息,代码及输出结果如下:

import numpy as np
import pandas as pd
df = pd.read_excel("C:\\Users\\lenovo\\数据分析\\pydata02.xlsx")#读入excel表格
df

1.2查看数据表的大小

【例】请利用python查看上例中sales.csv文件中的数据表的大小,要求返回数据表中行的个数和列的个数。

关键技术:使用pandas库中DataFrame对象的shape()方法。

d = df.shape[0] #打印行数和列数
w = df.shape[1]
print("数据的行数%d "%d)
print('数据的列数 %d'%w)

1.3数据格式的查看

【例】请利用Python分别生成10行3列的DataFrame类型数据df和数组型数据arr,并且要求dfarr数值的取值范围在6~10之间,df的列名为a,b,c。最后返回dfarr的数据类型。

关键技术:type()方法。

【例】同样对于前一个例题给定的数据文件,读取后请利用Python查看数据格式一是字符串还是数字格式。

关键技术: dtype属性和dtypes属性

在上例代码的基础上,对于series数据可以用dtype查看,对于dataframe数据可以用dtypes查看,程序代码如下所示:

1.4查看具体的数据分布

在进行数据分析时,常常需要对对数据的分布进行初步分析,包括统计数据中各元素的个数,均值、方差、最小值、最大值和分位数。

关键技术: describe()函数。在做数据分析时,常常需要了解数据元素的特征,describe()函数可以用于描述数据统计量特征,其返回值count表示、mean表示数据的平均值、std表示数据的标准差、min表示数据的最小值、max表示数据的最大值、25%50%75%分别表示数据的一分位、二分位、三分位数。

count : 计数

mean :平均值

std : 标准差

min : 最小值

25% 一分位

50% 二分位

75% 三分位

max 最大值

二、缺失值处理

2.1缺失值检查

【例】若某程序员对淘宝网站爬虫后得到原始数据集items.csv,文件内容形式如下所示。请利用Python检查各列缺失数据的个数,并汇总。

关键技术: isnull()方法。isnull()函数返回值为布尔值,如果数据存在缺失值,返回True;否则,返回False

2.2缺失值删除

【例】假设对于上述items.csv数据集检查完缺失值后,要对缺失值进行删除处理。请用Python完成上述工作。

关键技术: dropna()方法。dropna()方法用于删除含有缺失值的行。

【例】当某行或某列值都为NaN时,才删除整行或整列。这种情况该如何处理?

关键技术: dropna()方法的how参数。

【例】当某行有一个数据为NaN时,就删除整行和当某列有一个数据为NaN时,就删除整列。遇到这两周种情况,该如何处理?

关键技术: dropna()方法的how参数dropna(how= 'any' )

2.3缺失值替换/填充

对于数据中缺失值的处理,除了进行删除操作外,还可以进行替换和填充操作,如均值填补法,近邻填补法,插值填补法,等等。本小节介绍填充缺失值的fillna()方法。

本小节后续案例中所用的df数据如下,在案例中将不再重复展示。

【例】使用近邻填补法,即利用缺失值最近邻居的值来填补数据,对df数据中的缺失值进行填补,这种情况该如何实现?

关键技术: fillna()方法中的method参数。

在本案例中,可以将fillna()方法的method参数设置为bfill,来使用缺失值后面的数据进行填充。代码及运行结果如下:

【例】若使用缺失值前面的值进行填充来填补数据,这种情况又该如何实现?

本案例可以将fillna()方法的method参数设置设置为ffill,来使用缺失值前面的值进行填充。代码及运行结果如下:

这里的前后指的是上下

【例】请利用二次多项式插值法对df数据中item2列的缺失值进行填充。

关键技术: interpolate方法及其order参数。

在该案例中,将interpolate方法中的参数order设置为2即可满足要求。具体代码及运行结果如下:

【例】请使用Python完成对df数据中item2列的三次样条插值填充。

关键技术:三次样条插值,即利用一个三次多项式来逼近原目标函数,然后求解该三次多项式的极小点来作为原目标函数的近似极小点。

在该案例中,将interpolate方法的method参数设置为spline,将order参数设置为3,具体代码及运行结果如下:

三、重复值处理

3.1发现重复值

在数据的采集过程中,有时会存在对同一数据进行重复采集的情况,重复值的存在会对数据分析的结果产生不良影响,因此在进行数据分析前,对数据中的重复值进行处理是十分必要的。本节主要从重复值的发现和处理两方面进行介绍。

本节各案例所用到的df数据如下,在各案例的代码展示中将不再重复这部分内容。

【例】请使用Python检查df数据中的重复值。

关键技术: duplicated方法。

利用duplicated()方法检测冗余的行或列,默认是判断全部列中的值是否全部重复,并返回布尔类型的结果。对于完全没有重复的行,返回值为False。对于有重复值的行,第一次出现重复的那一行返回False,其余的返回True。本案例的代码及运行结果如下:

四、异常值的检测和处理

4.1检测异常值

【例】某公司的年度业务数据work.csv,数据形式如下所示。其中年度销售量应大于1000,请分别用判断数据范围方法和箱形图方法检测数据中的异常值。

关键技术: query方法和boxplot方法。

在该案例中,首先使用pandas库中的query方法查询数据中是否有异常值。然后通过boxplot方法检测异常值。代码及运行结果如下:

下面以箱形图的方法来进行异常值检测。

4.2处理异常值

了解异常值的检测后,接下来介绍如何处理异常值。在数据分析的过程中,对异常值的处理通常包括以下3种方法:

  1. 最常用的方式是删除。
  2. 将异常值当缺失值处理,以某个值填充。
  3. 将异常值当特殊情况进行分析,研究异常值出现的原因。

【例】对于上述业务数据work.csv,若已经检测出异常值,请问在此基础上,如何删除异常值?

关键技术:drop()方法。

利用drop()方法,对work.csv文件中的异常值进行删除操作,代码及运行结果如下:

五、数据类型的转化

1、数据类型检查

【例】利用numppy库的arange函数创建一维整数数组,并查

关键技术: dtype属性。

在本案例中,首先使用arange方法创建数组arr,然后通过打属性查看数组的数据类型。代码及运行结果如下:

【例】利用numpy库的arange函数创建一维浮点数数组arr1,然后将arr1数组的数据类型转换为整型。

关键技术: astype函数。

六、索引设置

索引能够快速查询数据,本节主要介绍索引的应用。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容, Pandas库中索引的作用如下:

  1. 更方便地查询数据。
  2. 使用索引可以提升查询性能。

6.1添加索引

【例】创建数据为[1,2,3,4,5]Series,并指定索引标签为['a','b','c','d','e']

关键技术: index方法设置索引。

该案例的代码及运行结果如下:

6.2更改索引

【例】某公司销售数据集"work.csv"内容如下,请设定日期为索引,并用Python实现。关键技术: set_index()函数,可以指定某一字段为索引。

关于set_index

参数

  1. keys : 要设置为索引的列名(如有多个应放在一个列表里)
  2. drop : 将设置为索引的列删除,默认为True
  3. append : 是否将新的索引追加到原索引后(即是否保留原索引),默认为False
  4. inplace : 是否在原DataFrame上修改,默认为False
  5. verify_integrity : 是否检查索引有无重复,默认为False

在该案例中,除了可以用set_index方法重置索引外,还可以在导入csv文件的过程中,设置index_col参数重置索引,代码及结果如下:

6.3重命名索引

【例】构建series对象,其数据为[88,60,75],对应的索引为[1,2,3]。请利用Python对该series对象重新设置索引为[1,2,3,4,5]

关键技术: reindex()方法。

从运行结果中可以看出,对s1索引重置后,数据中出现了缺失值。若要对这些缺失值进行填补,可以设置reindex()方法中的method参数, method参数表示重新设置索引时,选择对缺失数据插值的方法。可以设置为None,bfill (向后填充)ffill(向前填充)等。

【例】通过二维数组创建如下所示的成绩表,并重置其行索引为stu1,stu2,stu3,stu4,stu5,重置其列索引为['语文', '物理','数学','英语']

关键技术: reindex()方法中的index参数和columns参数。

reindex()方法中, index参数表示重置的行索引, columns参数表示重置的列索引。本案例的代码及运行结果如下。

七、其他

7.1大小写转换

在数据分析中,有时候需要将字符串中的字符进行大小写转换。在Python中可以使用lower()方法,将字符串中的所有大写字母转换为小写字母。也可以使用upper()方法,将字符串中的所有小写字母转换为大写字母。

7.2数据修改与替换

  1. 按列增加数据
    【例】请创建如下所示的DataFrame数据,并利用Python对该数据的最后增加一列数据,要求数据的列索引为'four' ,数值为[9,10,24]。若要在该数据的'two' 列和 ‘three'列之间增加新的列,该如何操作?

  1. 按行增加数据
    【例】对于上例中的DataFrame数据,增加一行数据,数据行的索引为"d" ,数值为[9,10,11],请使用Python实现。若要向df数据中再增加三行数据,索引分别为"e" , “f” , “g”,数值分别为[1,2,3], [4,5,6], [7,8,9],在Python中该如何实现?

关键技术: loc()方法和append()方法。请利用Python将第三行数据替换为[10,20,30]

关键技术: loc()方法和iloc()方法。

7.3数据删除

  1. 按列删除数据
    【例】请构建如下DataFrame数据并利用Python删除下面DataFrame实例的第四列数据。
    关键技术:该案例中,使用DataFrame的drop()方法,删除数据中某一列。
    drop()方法的参数说明如下:
    labels:表示行标签或列标签。
    axis: axis=0,表示按行删除,axis=1,表示按列删除。默认值为0。
    index:删除行,默认为None。
    columns:删除列,默认为None。
    inplace:可选参数,对原数组作出修改并返回一个新数组。默认是False,如果为true,那么原数组直接被替换。
  2. 按行删除数据
    【例】对于上例中的DataFrame数据,请利用Python删除下面DataFrame实例的第四行数据。
    关键技术:本案例可通过设置drop()方法的index参数, label参数实现,代码及运行结果如下。

总结

数据预处理可以提高数据的质量,并提高模型的准确性和可解释性。

相关文章
|
4天前
|
数据挖掘 计算机视觉 Python
Python数据分析13
Pillow 是 PIL(Python Imaging Library)的升级版本,适应 Python 3 的更新而诞生,带来了诸多新特性。它采用模块化结构,主要包括:图像功能模块(Image)、图像滤波功能模块(ImageFilter)、图像增强功能模块(ImageEnhance)和图像绘画功能模块(ImageDraw)。Pillow 支持从多种图像格式读取数据,进行处理,并能输出为常见格式,其官网提供了丰富的应用示例供学习参考。
16 4
|
1天前
|
SQL 数据采集 数据可视化
深入 Python 数据分析:高级技术与实战应用
本文系统地介绍了Python在高级数据分析中的应用,涵盖数据读取、预处理、探索及可视化等关键环节,并详细展示了聚类分析、PCA、时间序列分析等高级技术。通过实际案例,帮助读者掌握解决复杂问题的方法,提升数据分析技能。使用pandas、matplotlib、seaborn及sklearn等库,提供了丰富的代码示例,便于实践操作。
102 64
|
2天前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
【9月更文挑战第33天】本文旨在为初学者提供一个关于使用Python进行数据分析的全面概述。我们将从基本的安装和设置开始,逐步介绍数据处理、数据可视化以及机器学习的基本概念和应用。文章将通过实际代码示例来展示如何使用Python及其相关库来解决常见的数据分析问题。
|
5天前
|
数据挖掘 Serverless 计算机视觉
Python数据分析 11
SciPy是一款专为数学、科学及工程应用设计的开源软件,它基于NumPy的n维数组构建,提供了丰富的数值例程,包括积分、优化、线性代数等,适用于各种操作系统,安装简易且免费。它还包含了如快速傅里叶变换、信号处理、图像处理、特殊函数计算等功能,满足了科学计算与工程需求。相较于NumPy的一般数组,SciPy提供了真正的矩阵及其相关运算支持。
24 7
|
5天前
|
机器学习/深度学习 数据挖掘 算法框架/工具
Python数据分析6
Keras是一个用Python编写的深度学习框架,支持TensorFlow等多种后端,以其高度模块化、用户友好性和易扩展性著称。它不仅适用于搭建普通神经网络,还能够构建自编码器、循环神经网络、卷积神经网络等多种模型,并且可以无缝切换CPU和GPU。相比Theano,Keras极大简化了神经网络模型的搭建过程,使普通用户也能轻松创建复杂的深度学习模型,仅需几十行代码即可完成。需要注意的是,Keras的预测函数采用`model.predict()`输出概率,`model.predict_classes()`输出分类结果。
16 6
|
5天前
|
自然语言处理 搜索推荐 数据挖掘
Python 数据分析10
除了常用的Python数据挖掘建模库外,还有许多其他库也非常实用,例如 jieba、SciPy、OpenCV 和 Pillow 等。其中,jieba 是一个广泛使用的中文分词库,支持多种编程语言,包括 Python、R 和 C++,并且提供了三种分词模式:精确模式、全模式和搜索引擎模式。此外,jieba 还具备词性标注、添加自定义词典及关键词提取等功能,在 GitHub 社区中有较高讨论度,并拥有丰富的实例资源。
18 5
|
5天前
|
机器学习/深度学习 数据挖掘 PyTorch
Python数据分析7
PyTorch是由Facebook(现Meta)人工智能研究院于2017年开源的Python机器学习库,基于Torch构建,支持GPU加速和动态神经网络,适用于自然语言处理等领域。其灵活的API和简洁的语法使得构建和调试深度学习模型变得简单快捷,成为深度学习领域的热门工具之一。社区支持广泛,拥有丰富的应用领域库。
12 3
|
4天前
|
算法 数据挖掘 计算机视觉
Python数据分析12
OpenCV是由英特尔公司资助的开源计算机视觉库,集成了丰富的图像处理与计算机视觉算法,拥有超过500个函数,支持多种编程语言与操作系统。该库采用模块化设计,主要包括核心功能、图像处理、2D特征及GUI四个模块,广泛应用于产品检测、医学成像等多个领域。
11 1
|
5天前
|
机器学习/深度学习 并行计算 数据挖掘
Python数据分析8
飞桨(PaddlePaddle)是百度于2016年开源的一款学习框架,它以易用性、高效性、灵活性及可扩展性为特点,提供了涵盖核心深度学习框架、模型库、开发套件等在内的全面功能,并且支持大规模模型训练与多平台部署。此外,它不断优化性能,增强对各类硬件的支持,已在制造业、农业等多个领域广泛应用。
12 2
|
5天前
|
机器学习/深度学习 数据挖掘 TensorFlow
Python数据分析5
虽然scikit-learn功能强大,但对于人工神经网络这一重要模型却支持不足。人工神经网络在自然语言处理和图像识别等领域有着广泛应用,而深度学习作为其延伸,已成为研究热点。因此,在Python中实现神经网络变得尤为重要。目前主流的深度学习框架有TensorFlow、Keras、PyTorch、PaddlePaddle和Caffe等。其中,TensorFlow由Google于2015年推出,基于先前的深度学习基础框架DistBelief构建,因其高度灵活、可移植以及自动计算梯度导数等特点,迅速成为最受欢迎的深度学习框架之一,支持多种编程语言接口,如C++、Python、Java等。
14 2
下一篇
无影云桌面