示例数据:
import pandas as pd df = pd.DataFrame({'a':['Python', 'Python', 'Java', 'Java', 'C'], 'b': [2, 2, 6, 8, 10]}) df 复制代码
仅判断单列是否有重复值
- 使用
values_counts()
对列中值出现次数进行统计。结果默认按照降序进行排列,只需要判断第一行值的出现次数是否为1即可判断是否存在重复值。
df['a'].value_counts() 复制代码
- 使用
drop_duplicates()
对重复值进行删除,只保留第一次出现的值,判断处理后的值是否与原df
相等,如果False
就表示有重复值。
df.equals(df.drop_duplicates(subset=['a'], keep='first')) False 复制代码
判断所有列是否有重复行同样是使用drop_duplicates()
对重复值进行删除,只保留第一次出现的值,此时不适用subset
参数设置列,默认为全部列,判断处理后的值是否与原df
相等,如果False
就表示有重复值。
df.equals(df.drop_duplicates(keep='first')) False 复制代码
统计重复行的数量
len(df) - len(df.drop_duplicates(keep="first")) 复制代码
显示重复的数据行先删除重复的行,只保留第一次出现的,得到一个行唯一的数据集,再使用drop_duplicates()
删除掉df
中存在重复的所有数据,这次不保留第一次出现的重复值,将上述两个结果集进行合并,使用drop_duplicates()
对新生成的数据集进行去重,即可得到重复行的数据。
df.drop_duplicates(keep="first").append(df.drop_duplicates(keep=False)).drop_duplicates(keep=False) 复制代码