备案控制台

开发者社区开发与运维文章正文

Pandas duplicated and drop_duplicates：查找并去除重复项

2018-01-28 5415

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

method of pandas.core.frame.DataFrame instance Return DataFrame with duplicate(重复） rows removed, optionally only considering certain columns

subset : column label or sequence of labels, optional 用来指定特定列，默认所有列

Only consider certain columns for identifying duplicates, by default use all of the columns

keep : {'first', 'last', False}, default 'first'去掉重复，默认保留第一次出现的

- ``first`` : Drop duplicates except for the first occurrence.

- ``last`` : Drop duplicates except for the last occurrence.

- False : Drop all duplicates.

inplace : boolean, default False 是否在原dataframe上修改还是保存一个副本

Whether to drop duplicates in place or to return a copy

Returns

-------

deduplicated : DataFrame

duplicated(subset=None, keep='first') method of pandas.core.frame.DataFrame instance Return boolean Series denoting duplicate rows, optionally only considering certain columns Parameters ---------- subset : column label or sequence of labels, optional Only consider certain columns for identifying duplicates, by default use all of the columns keep : {'first', 'last', False}, default 'first' - ``first`` : Mark duplicates as ``True`` except for the first occurrence. - ``last`` : Mark duplicates as ``True`` except for the last occurrence. - False : Mark all duplicates as ``True``. Returns ------- duplicated : Series

文章标签：

Python

关键词：

Pandas drop_duplicates

Pandas duplicated drop_duplicates

Chin2018

目录

相关文章

gudanhero2018

|

3月前

|

数据处理 Python

Pandas中的drop_duplicates()方法详解

Pandas中的drop_duplicates()方法详解

gudanhero2018

186 2 2

红目香薰

|

7月前

|

人工智能程序员数据处理

Pandas数据处理3、DataFrame去重函数drop_duplicates()详解

Pandas数据处理3、DataFrame去重函数drop_duplicates()详解

红目香薰

168 0 0

Pandas数据处理3、DataFrame去重函数drop_duplicates()详解

虚心求知的熊

|

存储 SQL 数据可视化

Python 之 Pandas merge() 函数、set_index() 函数、drop_duplicates() 函数和 tolist() 函数

Python 之 Pandas merge() 函数、set_index() 函数、drop_duplicates() 函数和 tolist() 函数

虚心求知的熊

285 0 0

壹佰、

|

Python

Pandas 数据重复处理 duplicated()和drop_duplicates()

Pandas 数据重复处理 duplicated()和drop_duplicates()

壹佰、

119 0 0

Pandas 数据重复处理 duplicated()和drop_duplicates()

土木林森

|

26天前

|

数据采集存储数据挖掘

Python数据分析：Pandas库的高效数据处理技巧

【10月更文挑战第27天】在数据分析领域，Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧，帮助数据分析师快速处理复杂数据集，提高工作效率。

土木林森

59 0 0

gudanhero2018

|

3月前

|

机器学习/深度学习数据处理 Python

从NumPy到Pandas：轻松转换Python数值库与数据处理利器

从NumPy到Pandas：轻松转换Python数值库与数据处理利器

gudanhero2018

81 0 0

土木林森

|

27天前

|

存储数据挖掘数据处理

Python数据分析：Pandas库的高效数据处理技巧

【10月更文挑战第26天】Python 是数据分析领域的热门语言，Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧，并通过示例代码展示其实际应用。

土木林森

33 2 2

半截诗

|

2月前

|

机器学习/深度学习并行计算大数据

【Python篇】深入挖掘 Pandas：机器学习数据处理的高级技巧

【Python篇】深入挖掘 Pandas：机器学习数据处理的高级技巧

半截诗

87 3 3

龙大吉

|

2月前

|

数据采集数据挖掘 API

Python数据分析加速器：深度挖掘Pandas与NumPy的高级功能

在Python数据分析的世界里，Pandas和NumPy无疑是两颗璀璨的明星，它们为数据科学家和工程师提供了强大而灵活的工具集，用于处理、分析和探索数据。今天，我们将一起深入探索这两个库的高级功能，看看它们如何成为数据分析的加速器。

龙大吉

42 1 1

小白学大数据

|

3月前

|

机器学习/深度学习数据采集监控

Pandas与Matplotlib：Python中的动态数据可视化

Pandas与Matplotlib：Python中的动态数据可视化

小白学大数据

122 2 3

热门文章

最新文章

pandas 打开没有列名的表格，并命名

pandas.to_numeric转化数据为数字型

pandas读excel类型文件报错: xlrd.biffh.XLRDError: Excel xlsx file； not supported

pandas数据操作

Pandas 基本使用(三) — DataFrame.to_dict() 函数使用！

羡慕 Excel 的高级选择与文本框颜色呈现？Pandas 也可以拥有！！ ⛵

Pandas太慢？快使用Vaex DataFrame，每秒数亿数据算起来 ⛵

python数据分析基础005 -pandas详解_pandas入门这一篇就足够了

【Python数据分析 - 10】：pandas常见基本操作

如何利用Python中的Pandas库进行数据分析和可视化

【新手解答】Python中Pandas的初学者笔记

Python网络数据抓取（5）：Pandas

使用Python pandas的sort_values()方法可按一个或多个列对DataFrame排序

在Python的Pandas中，可以通过直接赋值或使用apply函数在DataFrame添加新列。

在Pandas中，利用boolean indexing可按条件过滤DataFrame

【Python机器学习专栏】使用Pandas处理机器学习数据集

使用Python的pandas和matplotlib库绘制移动平均线（MA）示例

Python数据分析中的Pandas库应用指南

数据分析综合案例讲解，一文搞懂Numpy，pandas，matplotlib，seaborn技巧方法

相关课程

更多

Python 数据分析库 Pandas 快速入门

相关电子书

更多

中文：即学即用的Pandas入门与时间序列分析

即学即用的Pandas入门与时间序列分析

低代码开发师（初级）实战教程

下一篇

使用阿里云接口（API）进行身份证实名认证