pandas及常见数据处理基础

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
简介: 欢迎关注我的微信公众号:Python学习杂记

pandas是python中最常用的数据分析库,pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。本文介绍pandas常用的一些函数及数据处理方法。因之前有朋友说前面两篇文章比较复杂,想看一些基础的,本次更新尽可能讲解最基础的知识。

  • 导入数据
import pandas as qd
df1 = qd.read_excel('客户基本信息1.xlsx')
df1

pandas除了读取excel,其他数据类型的文件读取也很方便,这里暂不一一展示。

  • 更改标题和索引
df1.columns=['A','B','C']
df1.index=['A1','A2','A3','A4','A5','A6','A7']
df1

  • 数据切片(iloc和loc)

这里主要需要牢记iloc对应的是数字,loc对应的是标题栏。下面两行代码都能取到第1和第3列;效果完全一样。

df1.iloc[:,[0,3]]#取1,2列
df1.loc[:,['A','C']]#取1,2列
  • 数据的拼接

先导入第二个表格的数据。

对df1和df2两个数据表进行拼接:以A为目标栏(保留相同元素),A栏相同元素拼接成新表。(类似于excel的vlookup)

若想保留df1的A栏所有元素,增加how=‘left’即可实现;how=‘right’为保留df2的A栏所有元素。

为了展示后面的数据处理,df1和df4数据再进行一次上下拼接成df5.

  • 删掉某些行和列的操作

现在接刚才合并的数据df5为样本,删除列名为C的,删除A4、A5、A7行。

df5=df5.drop(index=['A4','A5','A7'])#删除对应索引的整行
df5=df5.drop(columns=["C",'B'])#删除对应列
df5

新的数据更新为:

如果要增加新的一列、增加新的一行:

更新索引:

  • 按某列数据分组

按A列分组,但是A列自动变成了索引。

重置一下索引,并且原索引栏不删除。

数据后面小数点太多,不太好看,可以设置保留小数点后1位。

  • 筛选数据

单条件筛选

多条件筛选

也可以实现数据透视表的功能。

  • 分箱

  • 计算某个数据出现的频次

  • 隐藏某个字符

  • 数据导出
df6.to_excel("data2.xlsx",index = False)

目录
相关文章
|
1月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
70 0
|
3月前
|
数据采集 数据可视化 数据挖掘
Pandas函数大合集:数据处理神器一网打尽!
Pandas函数大合集:数据处理神器一网打尽!
40 0
|
3月前
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
96 0
|
1月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
40 2
|
2月前
|
并行计算 大数据 数据处理
亿级数据处理,Pandas的高效策略
在大数据时代,数据量的爆炸性增长对处理技术提出更高要求。本文介绍如何利用Python的Pandas库及其配套工具高效处理亿级数据集,包括:采用Dask进行并行计算,分块读取以减少内存占用,利用数据库进行复杂查询,使用内存映射优化Pandas性能,以及借助PySpark实现分布式数据处理。通过这些方法,亿级数据处理变得简单高效,助力我们更好地挖掘数据价值。
102 1
|
7月前
|
数据可视化 数据挖掘 数据处理
进阶 pandas DataFrame:挖掘高级数据处理技巧
【5月更文挑战第19天】本文介绍了Pandas DataFrame的高级使用技巧,包括数据重塑(如`pivot`和`melt`)、字符串处理(如提取和替换)、日期时间处理(如解析和时间序列操作)、合并与连接(如`merge`和`concat`),以及使用`apply()`应用自定义函数。这些技巧能提升数据处理效率,适用于复杂数据分析任务。推荐进一步学习和探索Pandas的高级功能。
|
2月前
|
机器学习/深度学习 并行计算 大数据
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
92 3
|
7月前
|
数据处理 索引 Python
使用pandas的merge()和join()函数进行数据处理
使用pandas的merge()和join()函数进行数据处理
121 2
|
3月前
|
数据采集 数据挖掘 数据处理
Pandas实践:南京地铁数据处理分析
Pandas实践:南京地铁数据处理分析
43 2
|
4月前
|
数据采集 数据挖掘 数据处理
解锁Python数据分析新技能!Pandas实战学习,让你的数据处理能力瞬间飙升!
【8月更文挑战第22天】Python中的Pandas库简化了数据分析工作。本文通过分析一个金融公司的投资数据文件“investment_data.csv”,介绍了Pandas的基础及高级功能。首先读取并检查数据,包括显示前几行、列名、形状和数据类型。随后进行数据清洗,移除缺失值与重复项。接着转换日期格式,并计算投资收益。最后通过分组计算平均投资回报率,展示了Pandas在数据处理与分析中的强大能力。
48 0