1、文件方式创建:
df = pd.read_csv('C:\\Users\\dfzha\\2019\\SLTJ\\prd_data.csv',encoding='utf-8') #需换成自己的目录
2、数据统计:
df.describe() # 数值列的摘要统计信息 df.mean() # 返回均值的所有列 df.corr() # 返回DataFrame中各列之间的相关性 df.count() # 返回非空值的每个数据帧列中的数字 df.max() # 返回每列中的最高值 df.min() # 返回每一列中的最小值 df.median() # 返回每列的中位数 df.std() # 返回每列的标准偏差
3、查看数据:
# 查看基本信息 df.index #查看行索引 df.columns #查看列索引 df.values #查看值 df.head(n)) #查看前n行 df.tail(n) #查看最后n行 # 查看全局信息 df.shape #查看行数和列数 df.info() #查看索引、数据类型和内存信息 df.describe() #查看数值型列的汇总统计 # 查看缺失情况 df.isnull() #查看空值 df.notnull() #查看非空值 df.isnull().sum() #查看缺失值数量 # 查看列分布 df['gender'].unique()) #查看列分类范围 df['gender'].value_counts()) #查看某列的数据分布:
4、DataFrame是一个二维的表格型数据结构,既有行索引,也有列索引。其中每列可以是不同的值类型。 特点 潜在的列是不同的类型 大小可变 标记轴(行和列) 可以对行和列执行算术运算。
data = [[1,2,3], [4,5,6]] index = ['a','b'] columns = ['A','B','C'] df = pd.DataFrame(data=data, index=index, columns=columns)
5、增加数据:
直接增一行 df1.loc[‘行索引’] = 列表
函数增多行 pd.concat(objs, axis=0) objs: list of DataFrame; axis: 取0,进行行增加操作。
直接增一列 df1['列名'] = 列表
函数增多列 pd.concat(objs, axis=1) objs: list of DataFrame; axis: 取1,进行行增加操作。
#增加行 df1.loc['c'] = [7,8,9] #增加多行 df1 = pd.DataFrame([[22,33,44],[55,66,77]], index = ['c','d'],columns = ['A','B','C']) #创建数据,指定列索引 pd.concat([df, df1], axis=0 ) df1.append(df2) # 将df2添加 df1的末尾 (各列应相同) pd.concat([df1, df2],axis=1) # 将 df1的列添加到df2的末尾 (行应相同) df1.join(df2,on=col1,how='inner') # SQL样式将列 df1 与 df2 行所在的列col 具有相同值的列连接起来。'how'可以是一个 'left', 'right', 'outer', 'inner'
6、数据统计