Pandas 数据重复处理 duplicated()和drop_duplicates()

简介: Pandas 数据重复处理 duplicated()和drop_duplicates()

✌ duplicated()和drop_duplicates()

✌ 导库

import pandas as pd
import numpy as np

✌ 创建数据集

x=np.array([[1,2,3],[3,4,5],[1,2,3],[1,2,3]])
x=pd.DataFrame(x)
x

✌ duplicated()

返回每行数据是否重复

x.duplicated()

✌ 计算重复数据数目

x.duplicated().sum()

✌ drop_duplicates()

删除重复值

x=x.drop_duplicates()
x


目录
相关文章
|
3月前
|
Serverless 数据处理 索引
Pandas中的shift函数:轻松实现数据的前后移动
Pandas中的shift函数:轻松实现数据的前后移动
195 0
|
22天前
|
Python
|
22天前
|
Python
|
21天前
|
Python
Pandas 常用函数-数据合并
Pandas 常用函数-数据合并
34 1
|
22天前
|
索引 Python
Pandas 常用函数-数据排序
10月更文挑战第28天
10 1
|
22天前
|
Python
Pandas 常用函数-查看数据
Pandas 常用函数-查看数据
14 2
|
22天前
|
SQL JSON 数据库
Pandas 常用函数-读取数据
Pandas 常用函数-读取数据
13 2
|
26天前
|
Python
通过Pandas库处理股票收盘价数据,识别最近一次死叉后未出现金叉的具体位置的方法
在金融分析领域,"死叉"指的是短期移动平均线(如MA5)下穿长期移动平均线(如MA10),而"金叉"则相反。本文介绍了一种利用Python编程语言,通过Pandas库处理股票收盘价数据,识别最近一次死叉后未出现金叉的具体位置的方法。该方法首先计算两种移动平均线,接着确定它们的交叉点,最后检查并输出最近一次死叉及其后是否形成了金叉。此技术广泛应用于股市趋势分析。
41 2
|
21天前
|
Python
Pandas 常用函数-数据选择和过滤
Pandas 常用函数-数据选择和过滤
11 0
|
2月前
|
数据可视化 数据挖掘 数据处理
模型预测笔记(四):pandas_profiling生成数据报告
本文介绍了pandas_profiling库,它是一个Python工具,用于自动生成包含多种统计指标和可视化的详细HTML数据报告,支持大型数据集并允许自定义配置。安装命令为`pip install pandas_profiling`,使用示例代码`pfr = pandas_profiling.ProfileReport(data_train); pfr.to_file("./example.html")`。
51 1