Python基础 | pandas.dataframe 专题使用指南

简介: pandas.dataframe 专题使用指南。

1.选取行名、列名、值

image

image

2.以标签(行、列的名字)为索引选择数据—— x.loc[行标签,列标签]

image

3.以位置(第几行、第几列)为索引选择数据—— x.iloc[行位置,列位置]

image

4.同时根据标签和位置选择数据——x.ix[行,列]

image

5.选择连续的多行多列——切片
起点索引:终点索引 这种用法叫做一个切片,指从起点索引到终点索引。看实际用法就懂了。
如果起点索引省略代表从头开始,终点索引省略代表直到最后,都省略就代表全部了。
切片在.loc、.iloc、.ix三种方法中都可以应用

image

由上例可见,当以位置为索引时,切片是不包括终点的,是左闭右开的。即第1列到第3列不是写作0:2而是0:3。

image

6.选择不连续的某几行或某几列

image

image

备注:当以标签名选取不连续的某几行的时候在这个例子中如df.loc['2016-02-02','2016-02-04',:]这样写会出错,,是时间格式的原因,这样写就可以了df.ix[[pd.Timestamp('2016-02-02'), pd.Timestamp('2016-02-04')]]

7.简便地获取行或列
直接用切片获取行,直接用标签名获取列。注意不要错乱。

image

image

8.如何返回一个dataframe的单列或单行
如上,此时返回的是一个series,而不是dataframe。有时单独只获取一行的时候也会返回一个series,如df.ix[0,:]。

image

若要返回dataframe,可用中括号把索引括上,如下。

image

9.按条件选取数据——df[逻辑条件]
逻辑条件支持&(与)、|(或)、~(非)等逻辑运算

image

image

这个方法有个常用情景,即按条件修改数据:

image

02.dataframe转置、排序

1.转置 df.T

image

2.按行名或列名排序——df.sort_index
df.sort_index(axis=0,ascending=True)
axis= 0 为按行名排序;1 为按列名排序
ascending= True 为升序; False 为降序

image

3.按值排序——df.sort_index
df.sort(by=, ascending=True)
by= 按哪一列的值排序,默认是按行标签排序
ascending= True 为升序; False 为降序

image

03.dataframe增删行或列

1.获得一个datframe数据类型的样例

image

2.增加一列或一行

image

3.删除行或列——df.drop
df.drop(labels,axis=0,inplace=Flase)
labels 行或列的标签名,写在第一个可省略。
axis= 0 删除行;1 删除列
inplace= False 生成新dataframe;True 不生成新的dataframe,替换原本dataframe。默认是False。
该操作默认返回的是另一个新的dataframe,以至于原来的没有变,如在下面第一个例子中删除的列,在第二个例子中还有。要替换原来的请调整inplace参数

image

04.链接多个dataframe

1.concat,concat([df1,df2,...],axis=0)
axis= 0 纵向;1 横向。
使用前需导入过pandas模块
使用时要注意连接的dataframe行列对齐
可以同时拼接多个dataframe
拼接是强制的,允许连接后存在同名的行或列,见纵向连接的第二个例子

image

2.横向连接

image

3.纵向连接

image

05.组建dataframe

1.组建方法——pd.DataFrame
pd.DataFrame(data=None, index=None, columns=None)
data= 数据
index= 索引,即行名、行表头
columns= 列名、列表头
使用前要执行前面的import pandas as pd

image

2.用字典型数据组建——pd.DataFrame
方法基本同上,因为字典型自带一个标签,所以就不用写列名了。

image

3.简便地获得聚宽数据中的时间索引
有时建立一个dataframe时,为了和平台数据保持一致,需要使用相同的时间行索引,但时间数据操作复杂,而且涉及到节假日、非交易日等问题,直接建立比较困难,这里介绍一种简单的方法,快速获得跟平台数据一致的时间索引。原理就是直接把平台数据的时间索引拿出来。例子如下:

image

06.dataframe的缺失值处理

1.去掉缺失值——df.dropna
df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
axis= 0 按行检查缺失;1 按列检查缺失。不写默认为0
how= 'any' 有一个缺失值就算缺失;'all' 行或列(根据axis参数)全缺失才算缺失。不写默认为'any'
thresh= x,x为一个整数,含义为行或列(根据axis参数)中非缺失数值个数大于等于x则不算缺失,即小于x则算缺失,会被去除。
subset= 标签名。选择要对哪个列或行(与axis中的相反)进行检查缺失,没写的则不检查。即限制检查范围。
相对复杂,请看例子和与例子注释。

image

image

image

image

image

2.对缺失值进行填充——df.fillna
df.fillna(value=None,axis=None)
value= 替换缺失值的值。可以是单个值、字典、dataframe等,但不能是list。区别请看例子。

image

image

image

image

3.判断数据是否为缺失——df.isnull

为什么要这样用这个方法判断是否为缺失?
因为nan不等于nan(如下例),即用类似x == nan条件为真 这样的判断方法无法判断一个值x是否为nan。

image

07.常用统计函数

常用统计函数
describe 针对Series或个DataFrame列计算汇总统计
count 非na值的数量
min、max 计算最小值和最大值
idxmin、idxmax 计算能够获取到最大值和最小值得索引值
quantile 计算样本的分位数(0到1)
sum 值的总和
mean 值得平均数
median 值得算术中位数(50%分位数)
mad 根据平均值计算平均绝对离差
var 样本值的方差
std 样本值的标准差
skew 样本值得偏度(三阶矩)
kurt 样本值得峰度(四阶矩)
cumsum 样本值得累计和
cummin,cummax 样本值得累计最大值和累计最小值
cumprod 样本值得累计积
diff 计算一阶差分
pct_change 计算百分数变化
查看函数的详细信息

08.panel类型数据分解成dataframe

1.panel的取用方法
panel类型的的取用方法类似与dataframe,看下例子也就明白了。一般要做统计方面的工作,也是如下分解成dataframe进行操作,基本满足日常需求。了解更多panel的操作可参考:http://pandas.pydata.org/pandas-docs/stable/api.html#panel

2.panel类型数据分解成dataframe方法

image

image

09.研究内存取dataframe

1.把dataframe存成csv文件——df.to_csv()
用法如下,文件都是存到研究空间中的,如果不写路径是默认是存在根目录,如df.to_csv('df.csv')

image

image

2.读取被存成csv文件的dataframe——pd.read_csv()

image

原文发布时间为:2018-08-02
本文作者:TWist
本文来自云栖社区合作伙伴“ Python中文社区”,了解相关信息可以关注“ Python中文社区

相关文章
|
19天前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
41 2
|
2天前
|
机器学习/深度学习 存储 数据可视化
Python 中的 Pandas
【8月更文挑战第29天】
33 9
|
2天前
|
索引 Python
python pandas 把数据保存成csv文件,以及读取csv文件获取指定行、指定列数据
该文档详细介绍了如何使用Python的Pandas库处理图像数据集,并将其保存为CSV文件。示例数据集位于`test_data`目录中,包含5张PNG图片,每张图片名中的数字代表其标签。文档提供了将这些数据转换为CSV格式的具体步骤,包括不同格式的数据输入方法(如NumPy数组、嵌套列表、嵌套元组和字典),以及如何使用`pd.DataFrame`和`to_csv`方法保存数据。此外,还展示了如何读取CSV文件并访问其中的每一行和每一列数据,包括获取列名、指定列数据及行数据的操作方法。
10 1
|
10天前
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
11天前
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
18天前
|
数据采集 数据挖掘 数据处理
Python数据分析:Numpy、Pandas高级
在上一篇博文中,我们介绍了Python数据分析中NumPy和Pandas的基础知识。本文将深入探讨NumPy和Pandas的高级功能,并通过一个综合详细的例子展示这些高级功能的应用。
|
19天前
|
数据采集 数据挖掘 数据处理
Python数据分析:Numpy、Pandas基础
本文详细介绍了 Python 中两个重要的数据分析库 NumPy 和 Pandas 的基础知识,并通过一个综合的示例展示了如何使用这些库进行数据处理和分析。希望通过本篇博文,能更好地理解和掌握 NumPy 和 Pandas 的基本用法,为后续的数据分析工作打下坚实的基础。
|
3天前
|
算法 数据挖掘 Java
日常工作中,Python+Pandas是否能代替Excel+VBA?
日常工作中,Python+Pandas是否能代替Excel+VBA?
|
3天前
|
SQL 数据可视化 数据挖掘
一文带你看懂Python数据分析利器——Pandas的前世今生
一文带你看懂Python数据分析利器——Pandas的前世今生
|
24天前
|
Python
【Python】解决pandas读取excel,以0向前填充的数字会变成纯数字
本文介绍了两种解决Python使用pandas库读取Excel时,数字前填充的0丢失问题的方法:一是在读取时指定列以字符串格式读取,二是在Excel中预先将数值转换为文本格式。
38 0
【Python】解决pandas读取excel,以0向前填充的数字会变成纯数字
下一篇
云函数