数据分析工具PANDAS技巧-如何删除数据帧的列

简介: 数据分析工具PANDAS技巧-如何删除数据帧的列 在本教程中,我们将介绍如何从pandas数据帧(dataframe)中删除或删除一个或多个列。 什么是pandas ? pandas是一个用于数据操作的python包。

数据分析工具PANDAS技巧-如何删除数据帧的列

在本教程中,我们将介绍如何从pandas数据帧(dataframe)中删除或删除一个或多个列。

image

什么是pandas ?

pandas是一个用于数据操作的python包。 它具有以下数据任务的多个功能:

  • 删除或保留行和列
  • 按一列或多列汇总数据
  • 对数据进行排序或重新排序
  • 合并或附加多个数据帧
  • 用于处理文本数据的字符串函数
  • DateTime用于处理日期或时间格式列的函数

导入或加载Pandas库

>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame(np.random.randn(6, 4), columns=list('ABCD'))
>>> df
          A         B         C         D
0  0.234760  0.408970  0.294589 -0.283262
1  0.949531  0.021386  1.708693 -1.175214
2 -0.193982 -1.012922  0.453042  1.850156
3 -0.849963 -1.164284  0.438106  0.637801
4 -0.511291 -1.536829 -1.545748 -1.691566
5  0.762898  0.129889 -0.020672 -1.665944

删除一列

在pandas中,drop( )函数用于删除列。 axis=1告诉Python在列而不是行上应用函数。

>>> df.drop(['A'], axis=1)
          B         C         D
0  0.408970  0.294589 -0.283262
1  0.021386  1.708693 -1.175214
2 -1.012922  0.453042  1.850156
3 -1.164284  0.438106  0.637801
4 -1.536829 -1.545748 -1.691566
5  0.129889 -0.020672 -1.665944
>>> newdf = df.drop(['A'], axis=1)
>>> df.drop(['A'], axis=1, inplace=True)
>>> df.columns
Index(['B', 'C', 'D'], dtype='object')

删除Python中的多个列

>>> df.drop(['B','C'], axis=1)
          D
0 -0.283262
1 -1.175214
2  1.850156
3  0.637801
4 -1.691566
5 -1.665944

参考资料

按位置编号删除列?

>>> df.drop(df.columns[0], axis =1)
          C         D
0  0.294589 -0.283262
1  1.708693 -1.175214
2  0.453042  1.850156
3  0.438106  0.637801
4 -1.545748 -1.691566
5 -0.020672 -1.665944
>>> cols = [0,2]
>>> df.drop(df.columns[cols], axis =1)
          C
0  0.294589
1  1.708693
2  0.453042
3  0.438106
4 -1.545748
5 -0.020672

按名称模式删除列

>>> df = pd.DataFrame({"X1":range(1,6),"X_2":range(2,7),"YX":range(3,8),"Y_1":range(2,7),"Z":range(5,10)}) # 讨论qq群630011153 144081101
>>> df
   X1  X_2  YX  Y_1  Z
0   1    2   3    2  5
1   2    3   4    3  6
2   3    4   5    4  7
3   4    5   6    5  8
4   5    6   7    6  9
>>> df.loc[:,~df.columns.str.contains('^X')]
   YX  Y_1  Z
0   3    2  5
1   4    3  6
2   5    4  7
3   6    5  8
4   7    6  9
>>> df.drop(df.columns[df.columns.str.contains('^X')], axis=1)
   YX  Y_1  Z
0   3    2  5
1   4    3  6
2   5    4  7
3   6    5  8
4   7    6  9
>>> df.loc[:,~df.columns.str.contains('X')]
   Y_1  Z
0    2  5
1    3  6
2    4  7
3    5  8
4    6  9
>>> df.loc[:,~df.columns.str.contains('X|Y')]
   Z
0  5
1  6
2  7
3  8
4  9
>>> df.loc[:,~df.columns.str.contains('X$')]
   X1  X_2  Y_1  Z
0   1    2    2  5
1   2    3    3  6
2   3    4    4  7
3   4    5    5  8
4   5    6    6  9

按缺失比例删除

>>> df = pd.DataFrame({'A':[1,3,np.nan,5,np.nan], 'B':[4,np.nan,np.nan,5,np.nan]})
>>> df
     A    B
0  1.0  4.0
1  3.0  NaN
2  NaN  NaN
3  5.0  5.0
4  NaN  NaN
>>> cols = df.columns[df.isnull().mean()>0.5]
>>> df.drop(cols, axis=1)
     A
0  1.0
1  3.0
2  NaN
4  NaN
3  5.0
相关文章
|
1月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
70 0
|
13天前
|
监控 数据可视化 数据挖掘
数据看板制作工具评测:这6款工具能如何提升企业的数据分析效率?
本文介绍了6款数据看板制作工具,包括板栗看板、Tableau、Power BI、Qlik Sense、Google Data Studio和Looker,从功能、适用场景等方面进行了详细对比,旨在帮助企业选择最合适的工具以实现高效的数据可视化和管理决策。
|
18天前
|
数据挖掘 关系型数据库 Serverless
利用数据分析工具评估特定业务场景下扩缩容操作对性能的影响
通过以上数据分析工具的运用,可以深入挖掘数据背后的信息,准确评估特定业务场景下扩缩容操作对 PolarDB Serverless 性能的影响。同时,这些分析结果还可以为后续的优化和决策提供有力的支持,确保业务系统在不断变化的环境中保持良好的性能表现。
25 2
|
1月前
|
数据处理 Python
在数据科学领域,Pandas和NumPy是每位数据科学家和分析师的必备工具
在数据科学领域,Pandas和NumPy是每位数据科学家和分析师的必备工具。本文通过问题解答形式,深入探讨Pandas与NumPy的高级操作技巧,如复杂数据筛选、分组聚合、数组优化及协同工作,结合实战演练,助你提升数据处理能力和工作效率。
41 5
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
41 2
|
1月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
41 2
|
2月前
|
机器学习/深度学习 并行计算 数据挖掘
R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域
【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。
55 2
|
2月前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
39 2
|
27天前
|
数据采集 数据可视化 数据挖掘
Python数据分析:Pandas库实战指南
Python数据分析:Pandas库实战指南
|
1月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集