pandas处理重复值

简介: pandas处理重复值

示例数据:


import pandas as pd
df = pd.DataFrame({'a':['Python', 'Python', 'Java', 'Java', 'C'], 'b': [2, 2, 6, 8, 10]})
df
复制代码


image.png


仅判断单列是否有重复值

  1. 使用values_counts()对列中值出现次数进行统计。结果默认按照降序进行排列,只需要判断第一行值的出现次数是否为1即可判断是否存在重复值。
df['a'].value_counts()
复制代码

image.png


  1. 使用drop_duplicates()对重复值进行删除,只保留第一次出现的值,判断处理后的值是否与原df相等,如果False就表示有重复值。


df.equals(df.drop_duplicates(subset=['a'], keep='first'))
False
复制代码


判断所有列是否有重复行同样是使用drop_duplicates()对重复值进行删除,只保留第一次出现的值,此时不适用subset参数设置列,默认为全部列,判断处理后的值是否与原df相等,如果False就表示有重复值。


df.equals(df.drop_duplicates(keep='first'))
False
复制代码


统计重复行的数量

len(df) - len(df.drop_duplicates(keep="first"))
复制代码


显示重复的数据行先删除重复的行,只保留第一次出现的,得到一个行唯一的数据集,再使用drop_duplicates()删除掉df中存在重复的所有数据,这次不保留第一次出现的重复值,将上述两个结果集进行合并,使用drop_duplicates()对新生成的数据集进行去重,即可得到重复行的数据。


df.drop_duplicates(keep="first").append(df.drop_duplicates(keep=False)).drop_duplicates(keep=False)
复制代码

image.png



相关文章
|
3天前
|
Python
使用 Pandas 库时,如何处理数据的重复值?
在使用Pandas处理数据重复值时,需要根据具体的数据特点和分析需求,选择合适的方法来确保数据的准确性和唯一性。
28 8
|
11天前
|
Python
Pandas 常用函数-数据合并
Pandas 常用函数-数据合并
28 1
|
2月前
|
数据处理 Python
Pandas快速统计重复值的2种方法
Pandas快速统计重复值的2种方法
103 1
|
2月前
|
数据挖掘 索引 Python
Pandas中的排序技巧:让你的数据井然有序
Pandas中的排序技巧:让你的数据井然有序
30 0
|
6月前
|
数据采集 数据处理 索引
如何使用 Pandas 删除 DataFrame 中的非数字类型数据?
如何使用 Pandas 删除 DataFrame 中的非数字类型数据?
83 3
|
6月前
|
数据处理 Python
使用Pandas解决问题:对比两列数据取最大值的五种方法
​在数据处理和分析中,经常需要比较两个或多个列的值,并取其中的最大值。Pandas库作为Python中数据处理和分析的强大工具,提供了多种灵活的方法来实现这一需求。本文将详细介绍五种使用Pandas对比两列数据并取最大值的方法,通过代码示例和案例分析,帮助新手更好地理解并掌握这些技巧。
148 0
|
6月前
|
SQL 人工智能 数据处理
Pandas数据处理1、DataFrame删除NaN空值(dropna各种属性值控制超全)
Pandas数据处理1、DataFrame删除NaN空值(dropna各种属性值控制超全)
143 0
|
开发者 索引 Python
pandas 数据合并与整形 4|学习笔记
快速学习 pandas 数据合并与整形 4
|
数据挖掘 索引 Python
【Python数据分析 - 12】:Series结构、pandas中值的获取和修改、切片操作与排序(pandas篇)
【Python数据分析 - 12】:Series结构、pandas中值的获取和修改、切片操作与排序(pandas篇)
236 0
【Python数据分析 - 12】:Series结构、pandas中值的获取和修改、切片操作与排序(pandas篇)
|
索引 Python
pandas删除数据&重复值处理
pandas删除数据&重复值处理
pandas删除数据&重复值处理