DataFrame是Python中pandas库的一个重要数据结构,它是一个二维表格型数据结构,可以存储多种DataFrame是Python中pandas库的一个重要数据结构,它是一个二维表格型数据结构,可以存储多种类型的数据,并且具有很多实用的功能。以下是一些关于DataFrame的学习知识总结:
创建DataFrame:
- 使用字典创建:
pd.DataFrame(data)
,其中data是一个字典,键是列名,值是列中的数据。 - 使用列表创建:
pd.DataFrame(data, columns=columns)
,其中data是一个列表,columns是一个包含列名的列表。 - 从文件中读取:
pd.read_csv('file.csv')
、pd.read_excel('file.xlsx')
等。
- 使用字典创建:
查看DataFrame信息:
df.info()
:显示DataFrame的基本属性和索引信息。df.describe()
:显示DataFrame的描述性统计信息。df.head()
:显示DataFrame的前5行数据。df.tail()
:显示DataFrame的后5行数据。
选择和过滤数据:
- 通过列名选择:
df['column_name']
。 - 通过行索引选择:
df.loc[row_index]
。 - 通过条件过滤:
df[df['column_name'] > value]
。
- 通过列名选择:
修改DataFrame:
- 修改单个元素:
df.loc[row_index, 'column_name'] = new_value
。 - 修改一列:
df['column_name'] = new_values
。 - 添加新列:
df['new_column_name'] = new_values
。 - 删除列:
df.drop('column_name', axis=1, inplace=True)
。
- 修改单个元素:
分组和聚合:
- 使用
groupby()
函数对数据进行分组:df.groupby('column_name')
。 - 使用聚合函数(如sum、mean、max等)对分组后的数据进行计算:
df.groupby('column_name').agg({'column1': 'sum', 'column2': 'mean'})
。
- 使用
排序和排名:
- 对整个DataFrame进行排序:
df.sort_values(by='column_name', ascending=True)
。 - 对某一列进行排序:
df['column_name'].sort_values()
。 - 对某一列进行排名:
df['column_name'].rank()
。
- 对整个DataFrame进行排序:
合并和连接:
- 使用
concat()
函数将多个DataFrame按行或列方向进行合并:pd.concat([df1, df2], axis=0)
。 - 使用
merge()
函数将两个DataFrame按照某个共同的列进行连接:pd.merge(df1, df2, on='common_column')
。
- 使用
缺失值处理:
- 查看缺失值:
df.isnull().sum()
。 - 填充缺失值:
df['column_name'].fillna(value)
。 - 删除含有缺失值的行或列:
df.dropna()
、df.dropna(axis=1)
、df.dropna(axis=0)
。
- 查看缺失值: