dataframe学习知识总结

简介: pandas DataFrame是Python中用于处理二维表格数据的重要数据结构,支持多种类型数据,提供丰富功能。可通过字典、列表或文件创建DataFrame,使用`.info()`、`.describe()`、`.head()`和`.tail()`查看数据信息。选择和过滤数据可按列名、行索引或条件进行。修改包括更新元素、列及添加/删除列。利用`.groupby()`和聚合函数进行分组分析,使用`.sort_values()`和`.rank()`排序,通过`.concat()`和`.merge()`合并数据。

DataFrame是Python中pandas库的一个重要数据结构,它是一个二维表格型数据结构,可以存储多种DataFrame是Python中pandas库的一个重要数据结构,它是一个二维表格型数据结构,可以存储多种类型的数据,并且具有很多实用的功能。以下是一些关于DataFrame的学习知识总结:

  1. 创建DataFrame:

    • 使用字典创建:pd.DataFrame(data),其中data是一个字典,键是列名,值是列中的数据。
    • 使用列表创建:pd.DataFrame(data, columns=columns),其中data是一个列表,columns是一个包含列名的列表。
    • 从文件中读取:pd.read_csv('file.csv')pd.read_excel('file.xlsx')等。
  2. 查看DataFrame信息:

    • df.info():显示DataFrame的基本属性和索引信息。
    • df.describe():显示DataFrame的描述性统计信息。
    • df.head():显示DataFrame的前5行数据。
    • df.tail():显示DataFrame的后5行数据。
  3. 选择和过滤数据:

    • 通过列名选择:df['column_name']
    • 通过行索引选择:df.loc[row_index]
    • 通过条件过滤:df[df['column_name'] > value]
  4. 修改DataFrame:

    • 修改单个元素:df.loc[row_index, 'column_name'] = new_value
    • 修改一列:df['column_name'] = new_values
    • 添加新列:df['new_column_name'] = new_values
    • 删除列:df.drop('column_name', axis=1, inplace=True)
  5. 分组和聚合:

    • 使用groupby()函数对数据进行分组:df.groupby('column_name')
    • 使用聚合函数(如sum、mean、max等)对分组后的数据进行计算:df.groupby('column_name').agg({'column1': 'sum', 'column2': 'mean'})
  6. 排序和排名:

    • 对整个DataFrame进行排序:df.sort_values(by='column_name', ascending=True)
    • 对某一列进行排序:df['column_name'].sort_values()
    • 对某一列进行排名:df['column_name'].rank()
  7. 合并和连接:

    • 使用concat()函数将多个DataFrame按行或列方向进行合并:pd.concat([df1, df2], axis=0)
    • 使用merge()函数将两个DataFrame按照某个共同的列进行连接:pd.merge(df1, df2, on='common_column')
  8. 缺失值处理:

    • 查看缺失值:df.isnull().sum()
    • 填充缺失值:df['column_name'].fillna(value)
    • 删除含有缺失值的行或列:df.dropna()df.dropna(axis=1)df.dropna(axis=0)
目录
相关文章
|
5月前
|
JSON 数据挖掘 数据格式
Pandas中Series、DataFrame讲解及操作详解(超详细 附源码)
Pandas中Series、DataFrame讲解及操作详解(超详细 附源码)
197 0
|
12天前
|
SQL JSON 数据库
DataFrame
【10月更文挑战第15天】
29 7
|
14天前
|
数据采集 数据处理 索引
DataFrame
【10月更文挑战第13天】
44 2
|
SQL 存储 分布式计算
DataFrame 介绍_ DataFrame 是什么 | 学习笔记
快速学习 DataFrame 介绍_ DataFrame 是什么
1125 0
DataFrame 介绍_ DataFrame 是什么 | 学习笔记
|
12天前
|
数据挖掘 Python
DataFrame.corr
【10月更文挑战第15天】
25 4
|
1月前
|
SQL JSON 分布式计算
Dataframe
Dataframe
79 2
|
2月前
|
索引 Python
Pandas学习笔记之Dataframe
Pandas学习笔记之Dataframe
|
5月前
|
SQL 数据库 索引
Pandas之DataFrame,快速入门,迅速掌握(三)
Pandas之DataFrame,快速入门,迅速掌握(三)
|
5月前
|
数据采集 索引 Python
Pandas之DataFrame,快速入门,迅速掌握(二)
Pandas之DataFrame,快速入门,迅速掌握(二)
137 0
|
5月前
|
编译器 索引 Python
Pandas之DataFrame,快速入门,迅速掌握(一)
Pandas之DataFrame,快速入门,迅速掌握(一)
116 0