「Python」Pandas-相关操作

简介: 前言:本文主要讲解使用pandas如何读取csv文件;对pandas中的数据类型-Series,DataFrame的基本操作,如:排序,去重,一些基本运算和去重操作;层次化索引以及数据挖掘中热力图的制作。详细请点击目录进行预览。

「Python」Pandas-相关操作


前言:本文主要讲解使用pandas如何读取csv文件;对pandas中的数据类型-Series,DataFrame的基本操作,如:排序,去重,一些基本运算和去重操作;层次化索引以及数据挖掘中热力图的制作。详细请点击目录进行预览。


读取csv


# 如果数据集中有中文的话,最好在里面加上 encoding = 'gbk' ,以避免乱码问题。
# 后面的导出数据的时候也一样  
# header-关键字,告诉Pandas哪些是数据的列名。如果没有列名的话就将它设定为 None。
df = pd.read_csv('uk_rain_2014.csv', header=0)
df.head(5) # 查看前5行
df.tail(5) # 查看后5行
len(df) # 总行数
df.columns = ['','',..] # 修改列名

数据操作


排序


Series,DataFrame类型的数据用sort_index()按索引排序,sort_values()按值排序。

举个例子🌰:


按索引排序:

# new一个Series
obj = Series(range(4), index=['d','a','b','c'])
obj.sort_index()  
Out[74]: 
a    1
b    2
c    3
d    0
dtype: int64
# reshape 重新指定dataframe的形状大小,即二行四列。
# index指定索引名, column指定列名
frame = DataFrame(np.arange(8).reshape((2,4)),index=['three', 'one'],columns=['d','a','b','c'])
Out: 
       d  a  b  c
three  0  1  2  3
one    4  5  6  7
# 按索引值排序
frame.sort_index()
Out: 
       d  a  b  c
one    4  5  6  7
three  0  1  2  3

按值排序:

frame.sort_index(axis=1, ascending=False)
'''
help(pd.DataFrame.sort_index)  查看用法
axis 只有两个值 : 0 and 1,
df中只有两个index分别是表最左一列的时间和表最上一行的dabc
axis=0对应的是对左边一列的index进行排序,
ascending=False代表降序,ascending=True代表升序
axis=1对应的是对上边一行的index进行排序,
so,res = 
Out:     ---->
       d  c  b  a
three  0  3  2  1
one    4  7  6  5
'''
# 按值排序
frame = DataFrame({'b':[4, 7, -3, 2], 'a':[0, 1, 0, 1]})
frame.sort_values(by='b')  
#DataFrame必须传一个by参数表示要排序的列
Out[97]: 
   a  b
2  0 -3
3  1  2
0  0  4
1  1  7

删除


在pandas中,删除Series的元素或DataFrame的某一行(/列),

使用的是


drop(index, axis=0)删除行

drop(columns, axis=1)删除列。

需要注意的是drop()返回的是一个新对象,原对象不会被改变。

举个例子🌰:

# 三行三列的dataframe,并制定相应的索引和列名
df = DataFrame(np.arange(9).reshape(3,3), index=['a','c','d'], columns=['oh','te','ca'])
Out[18]: 
   oh  te  ca
a   0   1   2
c   3   4   5
d   6   7   8
df.drop('a') # 默认删除行
Out[19]: 
   oh  te  ca
c   3   4   5
d   6   7   8
df.drop(['oh','te'],axis=1) # axis = 1删除列
Out[20]: 
   ca
a   2
c   5
d   8

基本运算


在DataFrame中的算术运算是df中对应位置的元素的算术运算,如果没有共同的元素,则用NaN代替。


可用fill_value = ?传入填充值

举个例子🌰:

df1 = DataFrame(np.arange(12.).reshape((3,4)),columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4,5)),columns=list('abcde'))
df1+df2  # 或者df1.add(df2,fill_value = 0)这里设置的填充值为0
'''
Out[9]: 
    a   b   c   d   e
0   0   2   4   6 NaN
1   9  11  13  15 NaN
2  18  20  22  24 NaN
3 NaN NaN NaN NaN NaN
'''

dataframe数据类型的其他基本操作:

df.mean() # 算术平均数
df.mode() # 众数
df.median() # 中位数
df.max() # 最大值
df.min() # 最小值
df.std() # 标准差
df.values # 取值 返回二维形式[[]]    df.values.flatten() # 二维转化为一维
df.kurt() # 峰度系数
df.skew() # 偏态系数
df.quantile([0.25,0.5,0.75]) # 四分位点

去重


DataFrame的duplicated方法返回一个布尔型Series,表示各行是否是重复行。


使用drop_duplicates()方法可以去除重复的行数。


举个例子🌰:

df = DataFrame({'k1':['one']*3 + ['two']*4, 'k2':[1,1,2,3,3,4,4]})
Out[2]: 
    k1  k2
0  one   1
1  one   1
2  one   2
3  two   3
4  two   3
5  two   4
6  two   4
df.duplicated()  # 返回的都是布尔值
Out[3]: 
0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool
df.drop_duplicates() # 去除重复值
Out[4]: 
    k1  k2
0  one   1
2  one   2
3  two   3
5  two   4

数据处理可能用到的小技巧

如果需要获取某一列出现的所有值可以使用df['xx'].unique()

加上 .tolist()就可以转变为列表形式。


索引操作


dataframe以及series中的索引操作还是很厉害的。 举个例子🌰:

data = Series(np.random.randn(10), index = [['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd' ],[1,2,3,1,2,3,1,2,2,3]])
Out[2]:
a  1    0.169239
   2    0.689271
   3    0.879309
b  1   -0.699176
   2    0.260446
   3   -0.321751
c  1    0.893105
   2    0.757505
d  2   -1.223344
   3   -0.802812
# 取某个区间内的所有的行
data['b':'d']    # 取b-d行
Out[3]:
b  1   -0.699176
   2    0.260446
   3   -0.321751
c  1    0.893105
   2    0.757505
d  2   -1.223344
   3   -0.802812
# 取特定的某一列
data[:, 2] # 每一种index里面的第二个
Out[4]:
a    0.689271
b    0.260446
c    0.757505
d   -1.223344

取特定行:

data.iloc[:5]  # iloc是最内层索引,所以取的是前5个
Out[5]:
a  1    0.169239
   2    0.689271
   3    0.879309
b  1   -0.699176
   2    0.260446
data.loc['a']  
Out[5]:
a  1    0.169239
   2    0.689271
   3    0.879309

如果有多列可以通过嵌套的方式获取自己想要的列。比如有nameagesex三列但是只想要其中的nameage,就可以使用data[['name','age']]来实现


Series和DataFrame的转换

# 将Series转化成DataFrame:
data.unstack()
Out[5]:
1                    2            3
a    0.169239    0.689271    0.879309
b    -0.699176   0.260446  -0.321751
c    0.893105    0.757505    NaN
d    NaN        -1.223344   -0.802812

数据挖掘


数据过滤


当今,我们拿到的数据往往都不一定是我们需要的,所以对数据进行过滤就显得尤为重要了。那么如何利用Python的方法对数据进行出的预处理(过滤)呢?请往下看👇:

data.select_dtypes(exclude=['object']) # 过滤非数值列
data[col].isnull().any()  # 判断这一列是否存在空值数据

其他相关数据过滤的方法之后用到再回来更新~🤺

接下来补充一下数据分析中可能用到的可视化图像。

第一个上场的是热力图:


热力图


热力图的作用:可以查看数据特征中两两的相似图情况。能够反映出相关性最高的两个数据特征。

调用方法:

seaborn.heatmap(data, vmin=None, vmax=None, cmap=None, center=None, robust=False, annot=None, fmt='.2g', 
annot_kws=None,linewidths=0, linecolor='white', cbar=True, cbar_kws=None, cbar_ax=None, square=False, 
xticklabels='auto', yticklabels='auto',mask=None, ax=None, **kwargs)

参数说明:


  • data:矩形数据集。可以是numpy的数组(array),也可以是pandas的DataFrame。
  • 如果是DataFrame,则df的index/column信息会分别对应到heatmap的columns和rows,即df.index是热力图的行标,df.columns是热力图的列标


  • vmax,vmin:分别是热力图的颜色取值最大和最小范围


  • cmap:从数字到色彩空间的映射,取值是matplotlib包里的colormap名称或颜色对象,或者表示颜色的列表


  • annot :默认取值False;如果是True,在热力图每个方格写入数据


  • fmt:字符串格式代码,矩阵上标识数字的数据格式,比如保留小数点后几位数字

1.png

其他相关参数请参照 seaborn中文文档

使用1:关系矩阵 pandas中利用corr()方法可以获得关系矩阵。此时直接利用关系矩阵就可绘制热力图啦~


本次pandas的有关操作暂且更新到这了。

相关文章
|
2天前
|
SQL 数据采集 数据可视化
使用Python Pandas实现两表对应列相加(即使表头不同)
使用Python Pandas实现两表对应列相加(即使表头不同)
22 3
|
2天前
|
存储 JSON 安全
Python中的文件操作与文件IO操作
【5月更文挑战第14天】在Python中,文件操作是常见任务,包括读取、写入和处理文件内容。`open()`函数是核心,接受文件路径和模式(如'r'、'w'、'a'、'b'和'+')参数。本文详细讨论了文件操作基础,如读写模式,以及文件IO操作,如读取、写入和移动指针。异常处理是关键,使用`try-except`捕获`FileNotFoundError`和`PermissionError`等异常。进阶技巧涉及`with`语句、`readline()`、`os`和`shutil`模块。数据序列化与反序列化方面,介绍了
14 0
|
2天前
|
数据采集 数据可视化 数据挖掘
利用Python和Pandas库优化数据分析流程
在当今数据驱动的时代,数据分析已成为企业和个人决策的重要依据。Python作为一种强大且易于上手的编程语言,配合Pandas这一功能丰富的数据处理库,极大地简化了数据分析的流程。本文将探讨如何利用Python和Pandas库进行高效的数据清洗、转换、聚合以及可视化,从而优化数据分析的流程,提高数据分析的效率和准确性。
|
2天前
|
安全 测试技术 Python
零操作,高效下载:利用Playwright和Python完成文件下载
Playwright是Microsoft开发的跨浏览器自动化测试工具,能模拟用户操作,包括文件下载。在Python中,它提供`expect_download()`来处理文件下载,无需额外工具。下载开始时触发事件,完成后可通过`download.path()`获取路径。下载相关操作包括取消、删除、获取错误信息、所属页面、文件名、URL等。示例代码展示了如何下载pytest的压缩文件,简化了web自动化测试中的文件下载场景。
13 4
|
2天前
|
SQL 数据采集 数据挖掘
构建高效的Python数据处理流水线:使用Pandas和NumPy优化数据分析任务
在数据科学和分析领域,Python一直是最受欢迎的编程语言之一。本文将介绍如何通过使用Pandas和NumPy库构建高效的数据处理流水线,从而加速数据分析任务的执行。我们将讨论如何优化数据加载、清洗、转换和分析的过程,以及如何利用这些库中的强大功能来提高代码的性能和可维护性。
|
2天前
|
存储 小程序 数据处理
【Python】—— pandas数据处理
【Python】—— pandas数据处理
20 1
|
2天前
|
数据可视化 数据挖掘 BI
【Python】—— pandas 数据分析
【Python】—— pandas 数据分析
19 1
|
2天前
|
存储 索引 Python
【Python】—— Pandas 初体验(二)
【Python】—— Pandas 初体验(二)
14 1
|
2天前
|
存储 数据处理 索引
【Python】—— Pandas 初体验(一)
【Python】—— Pandas 初体验(一)
9 1
|
2天前
|
数据采集 数据可视化 数据挖掘
如何利用Python中的Pandas库进行数据分析和可视化
Python的Pandas库是一种功能强大的工具,可以用于数据分析和处理。本文将介绍如何使用Pandas库进行数据分析和可视化,包括数据导入、清洗、转换以及基本的统计分析和图表绘制。通过学习本文,读者将能够掌握利用Python中的Pandas库进行高效数据处理和可视化的技能。