数据导入与预处理-拓展-pandas筛选与修改(下)

简介: 数据导入与预处理-拓展-pandas筛选与修改1. 数据筛选与修改1.1 加载数据1.2 数据修改1. 数据修改--修改列名2. 数据修改--修改行索引

6. 数据新增-新增行 指定位置

在第2行新增一行数据

df1 = df_new.iloc[:1, :]
df2 = df_new.iloc[1:, :]
df3 = pd.DataFrame([[i for i in range(len(df_new.columns))]], columns=df_new.columns)
df3

输出为:


df_new = pd.concat([df1, df3, df2], ignore_index=True) # 索引会重新生成
df_new

输出为:

1.4 数据删除

1. 数据删除-删除指定行

# 数据删除|删除行
# 删除 df 第一行
df_new.drop(1)

输出为:


2. 数据删除-指定多行(条件)

#  数据删除|删除行(条件)
df_new.drop(df_new[df_new.金牌数<20].index)

输出为:

3. 数据删除-删除列

# 数据删除|删除列
# 删除刚刚新增的 比赛地点 列
df_new.drop(columns=['比赛地点'])

输出为:


4. 数据删除-删除多列

删除 df 的 7、8、9、10 列

df_new.drop(df_new.columns[[7,8,9,10]], axis=1)

输出为:

1.5 数据筛选

1. 数据筛选-筛选指定列号

提取第 1、2、3、4 列

# 提取第 1、2、3、4 列
df_new.iloc[:,[0,1,2,3]]

输出为:


提取第 奇数列

# 筛选全部 奇数列
df_new.iloc[:,[i % 2 != 0 for i in range(len(df_new.columns))]]

输出为:


2. 数据筛选-筛选指定列名

# 提取 金牌数、银牌数、铜牌数 三列
df_new[['国家奥委会','金牌数','银牌数','铜牌数']]


输出为:


提取全部列名中以 “数” 结尾的列

# 提取全部列名中以 “数” 结尾的列
df_new.loc[:, df_new.columns.str.endswith('数')]


输出为:


4. 数据筛选-筛选指定行

提取 金牌数 不等于 39 的行

# 提取 金牌数 不等于 39 的行
df_new.loc[~(df_new['金牌数'] == 39)]

输出为:


提取全部 奇数行

# 提取全部 奇数行
df_new[[i%2==1 for i in range(len(df_new.index))]]


输出为:


提取 中国、美国、英国、日本、巴西 五行数据

# 筛选行|条件(指定值)
# 提取 中国、美国、英国、日本、巴西 五行数据
country_list =  ["中国","美国","英国","日本","巴西"]
df_new.loc[df_new["国家奥委会"].isin(country_list)]

输出为:

提取 中国、美国、英国、日本、巴西 五行数据 并金牌数小于30

# 筛选行|多条件
# 提取 中国、美国、英国、日本、巴西 五行数据 并金牌数小于30
df_new.loc[(df_new['金牌数'] < 30) & (df_new['国家奥委会'].isin(['中国','美国','英国','日本','巴西']))]

输出为:


提取 国家奥委会 列中,所有包含 国的行

# 筛选行|条件(包含指定值)
# 提取 国家奥委会 列中,所有包含 国的行
df_new[df_new.国家奥委会.str.contains('国',na=False)] # 如果列中有字符串和数字类型需要家na=False

输出为:



** 使用 query 提取 金牌数 大于 金牌均值的国家**

# 筛选值|query(引用变量)
# 使用 query 提取 金牌数 大于 金牌均值的国家
gold_mean = df_new['金牌数'].mean()
print(gold_mean)
df_new.query(f'金牌数 > {gold_mean}')

输出为:


4. 数据筛选-筛选行号+列名

# 提取10-20行,列名为"银铜牌总数"以及之后的数据
df_new.loc[10:20,"银铜牌总数":]

输出为:


2. 总结

本文主要完成了数据的增删改查操作,十分高效,可以点赞关注评论收藏,多谢查看。

相关文章
|
2月前
|
存储 消息中间件 数据挖掘
Python实时数据分析:利用丰富的库(如Pandas, PySpark, Kafka)进行流处理,涵盖数据获取、预处理、处理、存储及展示。
【7月更文挑战第5天】Python实时数据分析:利用丰富的库(如Pandas, PySpark, Kafka)进行流处理,涵盖数据获取、预处理、处理、存储及展示。示例代码展示了从Kafka消费数据,计算社交媒体活跃度和物联网设备状态,并可视化结果。适用于监控、故障检测等场景。通过学习和实践,提升实时数据分析能力。
73 0
|
3月前
|
数据采集 安全 数据处理
Python采集数据处理:利用Pandas进行组排序和筛选
使用Python的Pandas库,结合亿牛云代理和多线程技术,提升网络爬虫数据处理效率。通过代理IP避免封锁,多线程并发采集,示例代码展示数据分组、排序、筛选及代理IP配置和线程管理。
Python采集数据处理:利用Pandas进行组排序和筛选
|
4月前
|
数据采集 数据挖掘 数据处理
《Pandas 简易速速上手小册》第2章:Pandas 数据导入与导出(2024 最新版)
《Pandas 简易速速上手小册》第2章:Pandas 数据导入与导出(2024 最新版)
82 1
|
4月前
|
存储 数据挖掘 数据处理
使用pandas高效读取筛选csv数据
本文介绍了使用Python的Pandas库读取和处理CSV文件。首先,确保安装了Pandas,然后通过`pd.read_csv()`函数读取CSV,可自定义分隔符、列名、索引等。使用`head()`查看数据前几行,`info()`获取基本信息。Pandas为数据分析提供强大支持,是数据科学家的常用工具。
68 0
|
4月前
|
数据挖掘 数据处理 索引
如何使用Python的Pandas库进行数据筛选和过滤?
Pandas是Python数据分析的核心库,提供DataFrame数据结构。基本步骤包括导入库、创建DataFrame及进行数据筛选。示例代码展示了如何通过布尔索引、`query()`和`loc[]`方法筛选`Age`大于19的记录。
87 0
|
数据格式 Python
pandas实现筛选功能方式【探索AnnData数据格式】
pandas实现筛选功能方式【探索AnnData数据格式】
|
数据采集 机器学习/深度学习 数据挖掘
使用Python进行数据清洗与预处理:Pandas和NumPy的应用
在数据分析和机器学习的过程中,数据清洗和预处理是非常重要的一步。Python提供了许多强大的库来帮助我们有效地进行数据清洗和预处理。本文将重点介绍两个常用的库:Pandas和NumPy。我们将使用一个实际的数据集来演示如何使用这两个库进行数据清洗和预处理,并展示其在数据分析中的应用。
346 0
|
Python
Python 帮同事用pandas快速筛选Excel文件
Python 帮同事用pandas快速筛选Excel文件
218 0
|
Python
【一日一技】超简单的Pandas数据筛选方法
【一日一技】超简单的Pandas数据筛选方法
130 0
|
2月前
|
数据挖掘 Python
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
118 0