pandas处理重复值

简介: pandas处理重复值

示例数据:


import pandas as pd
df = pd.DataFrame({'a':['Python', 'Python', 'Java', 'Java', 'C'], 'b': [2, 2, 6, 8, 10]})
df
复制代码


image.png


仅判断单列是否有重复值

  1. 使用values_counts()对列中值出现次数进行统计。结果默认按照降序进行排列,只需要判断第一行值的出现次数是否为1即可判断是否存在重复值。
df['a'].value_counts()
复制代码

image.png


  1. 使用drop_duplicates()对重复值进行删除,只保留第一次出现的值,判断处理后的值是否与原df相等,如果False就表示有重复值。


df.equals(df.drop_duplicates(subset=['a'], keep='first'))
False
复制代码


判断所有列是否有重复行同样是使用drop_duplicates()对重复值进行删除,只保留第一次出现的值,此时不适用subset参数设置列,默认为全部列,判断处理后的值是否与原df相等,如果False就表示有重复值。


df.equals(df.drop_duplicates(keep='first'))
False
复制代码


统计重复行的数量

len(df) - len(df.drop_duplicates(keep="first"))
复制代码


显示重复的数据行先删除重复的行,只保留第一次出现的,得到一个行唯一的数据集,再使用drop_duplicates()删除掉df中存在重复的所有数据,这次不保留第一次出现的重复值,将上述两个结果集进行合并,使用drop_duplicates()对新生成的数据集进行去重,即可得到重复行的数据。


df.drop_duplicates(keep="first").append(df.drop_duplicates(keep=False)).drop_duplicates(keep=False)
复制代码

image.png



相关文章
|
29天前
|
数据处理 Python
Pandas快速统计重复值的2种方法
Pandas快速统计重复值的2种方法
90 1
|
29天前
|
数据挖掘 索引 Python
Pandas中的排序技巧:让你的数据井然有序
Pandas中的排序技巧:让你的数据井然有序
20 0
|
5月前
|
数据采集 数据处理 索引
如何使用 Pandas 删除 DataFrame 中的非数字类型数据?
如何使用 Pandas 删除 DataFrame 中的非数字类型数据?
79 3
|
Python
【Python】【Pandas】将符合条件行的某列数值改为负数
在此顺便记录几个常用代码写法: 1.不重复取出一列的值data[列名].unique()或者data[列名].value_counts(sort=False) 2.对取出的列值进行格式处理
141 0
|
5月前
|
数据处理 Python
使用Pandas解决问题:对比两列数据取最大值的五种方法
​在数据处理和分析中,经常需要比较两个或多个列的值,并取其中的最大值。Pandas库作为Python中数据处理和分析的强大工具,提供了多种灵活的方法来实现这一需求。本文将详细介绍五种使用Pandas对比两列数据并取最大值的方法,通过代码示例和案例分析,帮助新手更好地理解并掌握这些技巧。
129 0
|
5月前
|
人工智能 程序员 数据处理
Pandas数据处理4、DataFrame记录重复值出现的次数(是总数不是每个值的数量)
Pandas数据处理4、DataFrame记录重复值出现的次数(是总数不是每个值的数量)
94 0
Pandas数据处理4、DataFrame记录重复值出现的次数(是总数不是每个值的数量)
Python应用专题 | 7:pandas中列方向字符统计及其合并
主要介绍如何统计pandas中列方向字符及其合并
|
数据挖掘 Python
Pandas唯一值、值计数以及成员资格
Pandas唯一值、值计数以及成员资格
Pandas唯一值、值计数以及成员资格
|
数据挖掘 索引 Python
【Python数据分析 - 12】:Series结构、pandas中值的获取和修改、切片操作与排序(pandas篇)
【Python数据分析 - 12】:Series结构、pandas中值的获取和修改、切片操作与排序(pandas篇)
230 0
【Python数据分析 - 12】:Series结构、pandas中值的获取和修改、切片操作与排序(pandas篇)
pandas 将字符串映射为数字的方法
pandas 将字符串映射为数字的方法