Pandas数据挖掘常用方法

简介: Pandas数据挖掘常用方法

1、文件方式创建:


df = pd.read_csv('C:\\Users\\dfzha\\2019\\SLTJ\\prd_data.csv',encoding='utf-8') #需换成自己的目录

2、数据统计:


df.describe()    # 数值列的摘要统计信息 
df.mean()        # 返回均值的所有列 
df.corr()        # 返回DataFrame中各列之间的相关性 
df.count()       # 返回非空值的每个数据帧列中的数字 
df.max()         # 返回每列中的最高值 
df.min()         # 返回每一列中的最小值 
df.median()      # 返回每列的中位数 
df.std()         # 返回每列的标准偏差

3、查看数据:


# 查看基本信息
df.index                           #查看行索引
df.columns                         #查看列索引
df.values                          #查看值
df.head(n))                        #查看前n行
df.tail(n)                         #查看最后n行
# 查看全局信息
df.shape                           #查看行数和列数
df.info()                          #查看索引、数据类型和内存信息
df.describe()                      #查看数值型列的汇总统计
# 查看缺失情况
df.isnull()                        #查看空值
df.notnull()                       #查看非空值
df.isnull().sum()                  #查看缺失值数量
# 查看列分布
df['gender'].unique())             #查看列分类范围
df['gender'].value_counts())       #查看某列的数据分布:


4、DataFrame是一个二维的表格型数据结构,既有行索引,也有列索引。其中每列可以是不同的值类型。 特点 潜在的列是不同的类型 大小可变 标记轴(行和列) 可以对行和列执行算术运算。


data = [[1,2,3],
        [4,5,6]]
index = ['a','b']
columns = ['A','B','C']
df = pd.DataFrame(data=data, index=index, columns=columns)

5、增加数据:


直接增一行 df1.loc[‘行索引’] = 列表


函数增多行 pd.concat(objs, axis=0) objs: list of DataFrame; axis: 取0,进行行增加操作。


直接增一列 df1['列名'] = 列表


函数增多列 pd.concat(objs, axis=1) objs: list of DataFrame; axis: 取1,进行行增加操作。


#增加行
df1.loc['c'] = [7,8,9]  
#增加多行
df1 = pd.DataFrame([[22,33,44],[55,66,77]], index = ['c','d'],columns = ['A','B','C']) #创建数据,指定列索引
pd.concat([df, df1], axis=0 ) 
df1.append(df2)                   # 将df2添加 df1的末尾 (各列应相同) 
pd.concat([df1, df2],axis=1)      # 将 df1的列添加到df2的末尾 (行应相同) 
df1.join(df2,on=col1,how='inner') # SQL样式将列 df1 与 df2 行所在的列col 具有相同值的列连接起来。'how'可以是一个 'left', 'right', 'outer', 'inner'

6、数据统计


相关文章
|
3月前
|
SQL 索引 Python
Pandas中DataFrame合并的几种方法
Pandas中DataFrame合并的几种方法
271 0
|
1月前
|
Python
通过Pandas库处理股票收盘价数据,识别最近一次死叉后未出现金叉的具体位置的方法
在金融分析领域,"死叉"指的是短期移动平均线(如MA5)下穿长期移动平均线(如MA10),而"金叉"则相反。本文介绍了一种利用Python编程语言,通过Pandas库处理股票收盘价数据,识别最近一次死叉后未出现金叉的具体位置的方法。该方法首先计算两种移动平均线,接着确定它们的交叉点,最后检查并输出最近一次死叉及其后是否形成了金叉。此技术广泛应用于股市趋势分析。
53 2
|
2月前
|
存储 数据采集 数据处理
Pandas中批量转换object至float的高效方法
在数据分析中,常需将Pandas DataFrame中的object类型列转换为float类型以进行数值计算。本文介绍如何使用`pd.to_numeric`函数高效转换,并处理非数字值,包括用0或平均值填充NaN值的方法。
128 1
|
3月前
|
数据处理 Python
Pandas中的drop_duplicates()方法详解
Pandas中的drop_duplicates()方法详解
306 2
|
3月前
|
数据处理 Python
Pandas快速统计重复值的2种方法
Pandas快速统计重复值的2种方法
201 1
|
3月前
|
数据挖掘 Python
掌握Pandas中的相关性分析:corr()方法详解
掌握Pandas中的相关性分析:corr()方法详解
318 0
|
3月前
|
数据处理 索引 Python
Pandas中resample方法:轻松处理时间序列数据
Pandas中resample方法:轻松处理时间序列数据
94 0
|
3月前
|
SQL 数据采集 索引
聚焦Pandas数据合并:掌握merge方法
聚焦Pandas数据合并:掌握merge方法
50 0
|
3月前
|
数据采集 机器学习/深度学习 数据挖掘
Pandas中的变形大师:transform方法
Pandas中的变形大师:transform方法
48 0