import pandas as pd # 缺失值处理 df = pd.read_excel('/Users/caizhengjie/Desktop/a.xlsx') print(df) # 直接调用info方法就会返回每一列的缺失值 print(df.info()) print('.....................') # isnull方法判断哪个是缺失值 print(df.isnull()) print('.....................') # 缺失值删除 ''' 缺失值分为两种:1一行中某个字段的缺失值,2一行全部为空白 dropna为删除含有缺失值的行,只要某一行有缺失值就把这一行删除,运行dropna()方法之后删除含有NaN值的行,返回删除后的数据 dropna(how = 'all'),指删除全部为空值的行 ,不全为空值的行就不会被删除 ''' # print(df.dropna(how='all')) print('.....................') # 缺失值的填充 # fillna(0)即将所有空值填充为0 # fillna({'列名','要填入的值'}) print(df.fillna({'学科':'理科'})) print('.....................') # 重复值处理 # drop_duplicates()方法,默认对所有值进行重复值判断,且默认保留第一行的值 # drop_duplicates(subset = '指要判断的列名',keep关键字,keep = 'fist'k或者'last'即默认是保留第一个,keep = false指把重复列全部删除) # 数据类型 # print(df.info()) #查看全部数据类型 # print(df['学号'].dtype) #查看某一列的数据类型 # 类型转换-astype()转换数据类型 # print(df['学号'].astype('float')) # 素引设置 # print('.....................') # df.columns('学号','s','a','r','w','v','x','b')
以上内容仅供参考学习