Python DataFrame初学者指南：轻松上手构建数据表格-阿里云开发者社区

Python DataFrame初学者指南：轻松上手构建数据表格

2024-05-19 999

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5月更文挑战第19天】本文是针对初学者的Pandas DataFrame指南，介绍如何安装Pandas、创建DataFrame（从字典或CSV文件）、查看数据（`head()`, `info()`, `describe()`）、选择与操作数据（列、行、缺失值处理、数据类型转换、排序、分组聚合）以及保存DataFrame到CSV文件。通过学习这些基础，你将能轻松开始数据科学之旅。

在Python的数据处理世界中，Pandas库及其核心数据结构DataFrame无疑是最受欢迎的。DataFrame提供了一个强大而灵活的方式来存储、操作和分析表格数据。对于初学者来说，理解并掌握DataFrame的基本概念和使用方法，是数据科学之旅的重要一步。本文将引导你轻松上手Python DataFrame，构建并操作数据表格。

一、安装Pandas库

首先，确保你的Python环境中已经安装了Pandas库。如果尚未安装，可以使用pip命令进行安装：

pip install pandas

二、创建DataFrame

DataFrame可以从多种数据源创建，如列表、字典、CSV文件等。下面是一些基本的创建方法：

1. 从字典创建

import pandas as pd

data = {
   
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Paris', 'London']
}

df = pd.DataFrame(data)
print(df)

2. 从CSV文件创建

如果你有一个CSV文件，可以直接使用pd.read_csv()函数读取并创建DataFrame：

df = pd.read_csv('data.csv')
print(df)

三、查看DataFrame信息

1. 查看前几行数据

使用head()方法可以查看DataFrame的前几行数据：

print(df.head())  # 默认显示前5行
print(df.head(3))  # 显示前3行

2. 查看数据的基本信息

使用info()方法可以查看DataFrame的列名、数据类型、非空值数量等基本信息：

print(df.info())

3. 查看数据描述性统计

对于数值型列，可以使用describe()方法查看描述性统计信息，如计数、均值、标准差、最小值、25%分位数、中位数、75%分位数和最大值：

print(df.describe())  # 假设DataFrame中有数值型列

四、操作DataFrame

1. 选择数据

选择列：使用列名选择单列或多列。

print(df['Name'])  # 选择Name列
print(df[['Name', 'Age']])  # 选择Name和Age列

选择行：使用loc和iloc方法选择行。

print(df.loc[0])  # 选择第一行
print(df.iloc[1:3])  # 选择第二行到第三行（不包括第四行）

2. 数据清洗

处理缺失值：使用dropna()删除包含缺失值的行或列，或使用fillna()填充缺失值。

df_no_na = df.dropna()  # 删除包含缺失值的行
df_filled = df.fillna('Unknown')  # 使用'Unknown'填充缺失值

数据类型转换：使用astype()方法转换数据类型。

df['Age'] = df['Age'].astype(int)  # 将Age列转换为整数类型

3. 数据排序

使用sort_values()方法按指定列的值对DataFrame进行排序。

df_sorted = df.sort_values(by='Age')  # 按Age列的值排序

4. 数据分组与聚合

使用groupby()方法进行数据分组，然后结合聚合函数（如sum(), mean(), count()等）对分组数据进行操作。

grouped = df.groupby('City')['Age'].mean()  # 按City分组并计算Age的均值
print(grouped)

五、保存DataFrame

可以使用to_csv()方法将DataFrame保存到CSV文件中：

df.to_csv('output.csv', index=False)  # 将DataFrame保存到CSV文件，不保存索引列

六、总结

本文介绍了Pandas DataFrame的基本概念和常用操作，包括创建DataFrame、查看DataFrame信息、选择数据、数据清洗、数据排序、数据分组与聚合以及保存DataFrame。通过掌握这些基本操作，你可以轻松上手Python DataFrame，构建并操作数据表格，为数据分析和数据科学之旅打下坚实的基础。

Python DataFrame初学者指南：轻松上手构建数据表格

一、安装Pandas库

二、创建DataFrame

1. 从字典创建

2. 从CSV文件创建

三、查看DataFrame信息

1. 查看前几行数据

2. 查看数据的基本信息

3. 查看数据描述性统计

四、操作DataFrame

1. 选择数据

2. 数据清洗

3. 数据排序

4. 数据分组与聚合

五、保存DataFrame

六、总结

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python DataFrame初学者指南：轻松上手构建数据表格

一、安装Pandas库

二、创建DataFrame

1. 从字典创建

2. 从CSV文件创建

三、查看DataFrame信息

1. 查看前几行数据

2. 查看数据的基本信息

3. 查看数据描述性统计

四、操作DataFrame

1. 选择数据

2. 数据清洗

3. 数据排序

4. 数据分组与聚合

五、保存DataFrame

六、总结

热门文章

最新文章

相关课程

相关电子书

推荐镜像