《Pandas 简易速速上手小册》第4章:Pandas 数据探索与处理(2024 最新版)

简介: 《Pandas 简易速速上手小册》第4章:Pandas 数据探索与处理(2024 最新版)

c8d8ed47f9a1368db458c1960ee26c7.png

4.1 选择和过滤数据

选择和过滤数据是数据分析中的基本技巧,让我们深入了解如何在 Pandas 中执行这些操作。

4.1.1 基础知识

  1. 选择列: 使用列名来选择数据,例如 df['column_name']
  2. 选择行: 使用条件语句过滤行,例如 df[df['column_name'] > value]
  3. 使用 lociloc: loc 用于基于标签的选择,而 iloc 用于基于整数位置的选择。

4.1.2 重点案例:电影评分数据分析

假设你有一份电影评分的数据集,需要根据不同的条件选择和过滤数据。

数据准备

import pandas as pd
# 示例电影评分数据
data = {
    'movie_id': [1, 2, 3, 4, 5],
    'title': ['Movie A', 'Movie B', 'Movie C', 'Movie D', 'Movie E'],
    'rating': [8.5, 7.0, 9.0, 6.5, 7.5]
}
movies_df = pd.DataFrame(data)

选择和过滤数据

# 选择评分高于8的电影
high_rating_movies = movies_df[movies_df['rating'] > 8]
# 使用 loc 选择特定列
title_ratings = movies_df.loc[:, ['title', 'rating']]

4.1.3 拓展案例一:股市数据筛选

处理一份股市数据,筛选出特定条件下的股票。

数据准备

# 示例股市数据
stock_data = {
    'stock_id': ['S1', 'S2', 'S3', 'S4'],
    'price': [100, 150, 90, 120],
    'volume': [300, 200, 500, 100]
}
stocks_df = pd.DataFrame(stock_data)

数据筛选

# 选择价格低于120的股票
low_price_stocks = stocks_df[stocks_df['price'] < 120]

4.1.4 拓展案例二:客户订单数据查询

假设你正在处理一份客户订单的数据集,需要根据客户ID和订单量进行筛选。

数据准备

# 示例客户订单数据
order_data = {
    'order_id': [101, 102, 103, 104],
    'customer_id': [1, 2, 2, 1],
    'quantity': [3, 4, 5, 2]
}
orders_df = pd.DataFrame(order_data)

数据查询

# 选择特定客户的订单
customer_orders = orders_df[orders_df['customer_id'] == 2]
# 使用 iloc 选择前两行
first_two_orders = orders_df.iloc[:2]

通过这些案例,我们演示了如何在 Pandas 中选择和过滤数据。无论是电影评分、股市数据还是客户订单,掌握这些技巧可以帮助你更有效地对数据进行分析。


4.2 数据排序和排名

在数据分析中,能够有效地对数据进行排序和排名是非常重要的。这不仅帮助我们快速找到重要信息,还能揭示数据的潜在模式。

4.2.1 基础知识

  1. 排序数据: 使用 sort_values() 方法根据一列或多列的值对数据进行排序。
  2. 排名数据: 使用 rank() 方法为每行分配一个排名。
  3. 降序排序: 通过设置 ascending=False,可以进行降序排序。

4.2.2 重点案例:销售业绩排名

假设你有一份销售员的销售业绩数据,需要对其进行排序和排名。

数据准备

import pandas as pd
# 示例销售业绩数据
sales_data = {
    'salesperson': ['Alice', 'Bob', 'Charlie', 'David'],
    'sales': [200, 150, 300, 250]
}
sales_df = pd.DataFrame(sales_data)

排序和排名

# 根据销售额排序
sorted_sales_df = sales_df.sort_values(by='sales', ascending=False)
# 为销售员排名
sorted_sales_df['rank'] = sorted_sales_df['sales'].rank(ascending=False)

4.2.3 拓展案例一:学生考试成绩排序

处理一份学生的考试成绩表,根据成绩进行排序。

数据准备

# 示例学生考试成绩数据
exam_scores_data = {
    'student': ['John', 'Emma', 'Mark', 'Laura'],
    'score': [88, 92, 75, 85]
}
scores_df = pd.DataFrame(exam_scores_data)

数据排序

# 根据考试成绩排序
sorted_scores_df = scores_df.sort_values(by='score', ascending=False)

4.2.4 拓展案例二:产品评价排序

假设你有一份产品的顾客评价数据,需要根据评价分数排序。

数据准备

# 示例产品评价数据
product_reviews_data = {
    'product_id': [101, 102, 103, 104],
    'review_score': [4.5, 3.8, 4.2, 5.0]
}
reviews_df = pd.DataFrame(product_reviews_data)

评价排序

# 根据评价分数排序
sorted_reviews_df = reviews_df.sort_values(by='review_score', ascending=False)

通过这些案例,我们展示了如何在 Pandas 中有效地对数据进行排序和排名。这些技巧对于快速理解数据结构、识别关键信息和模式至关重要,无论是在业绩排名、学生成绩排序,还是产品评价分析中。


4.3 列的添加与删除

在数据分析的过程中,我们经常需要根据分析需求添加新的列或者删除不必要的列。掌握如何高效地进行这些操作对于数据处理来说至关重要。

4.3.1 基础知识

  1. 添加列: 可以直接通过赋值的方式添加新列,例如 df['new_column'] = value
  2. 基于现有列计算新列: 通过对现有列进行运算或应用函数来创建新列。
  3. 删除列: 使用 drop() 方法删除列,例如 df.drop('column_name', axis=1, inplace=True)

4.3.2 重点案例:雇员薪资调整

假设你正在处理一份雇员的薪资表,需要根据他们的绩效评分调整薪资。

数据准备

import pandas as pd
# 示例雇员薪资数据
salary_data = {
    'employee': ['Alice', 'Bob', 'Charlie'],
    'base_salary': [30000, 40000, 50000],
    'performance_score': [3.2, 4.5, 3.8]
}
salary_df = pd.DataFrame(salary_data)

添加新列

# 根据绩效评分调整薪资
salary_df['adjusted_salary'] = salary_df['base_salary'] * (1 + salary_df['performance_score'] / 10)

删除列

# 删除绩效评分列
salary_df.drop('performance_score', axis=1, inplace=True)

4.3.3 拓展案例一:学生总成绩计算

处理一份学生的成绩单,需要计算每个学生的总成绩。

数据准备

# 示例学生成绩数据
grades_data = {
    'student': ['John', 'Emma', 'Mark'],
    'math': [88, 76, 92],
    'science': [85, 90, 88]
}
grades_df = pd.DataFrame(grades_data)

计算总成绩

# 计算总成绩
grades_df['total'] = grades_df['math'] + grades_df['science']

4.3.4 拓展案例二:产品销售数据分析

假设你有一份产品的销售记录,需要分析每个产品的总销售额。

数据准备

# 示例产品销售数据
sales_data = {
    'product_id': [101, 102, 103],
    'units_sold': [30, 50, 20],
    'unit_price': [10, 20, 15]
}
sales_df = pd.DataFrame(sales_data)

计算总销售额

# 计算每个产品的总销售额
sales_df['total_sales'] = sales_df['units_sold'] * sales_df['unit_price']

通过这些案例,我们展示了如何在 Pandas 中有效地添加和删除列,以及如何基于现有数据创建新的数据列。这些技巧是数据预处理和特征工程的关键部分,无论是处理薪资数据、学生成绩,还是产品销售记录。

目录
相关文章
|
2月前
|
Python
使用 Pandas 库时,如何处理数据的重复值?
在使用Pandas处理数据重复值时,需要根据具体的数据特点和分析需求,选择合适的方法来确保数据的准确性和唯一性。
257 64
|
4天前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
94 71
|
1天前
|
分布式计算 数据可视化 数据挖掘
Pandas数据应用:社交媒体分析
本文介绍如何使用Pandas进行社交媒体数据分析,涵盖数据获取、预处理、探索性分析和建模的完整流程。通过API获取数据并转换为DataFrame格式,处理缺失值和数据类型转换问题。利用Matplotlib等库进行可视化,展示不同类型帖子的数量分布。针对大规模数据集提供内存优化方案,并结合TextBlob进行情感分析。最后总结常见问题及解决方案,帮助读者掌握Pandas在社交媒体数据分析中的应用。
123 96
|
7天前
|
编解码 数据挖掘 开发者
Pandas数据导出:CSV文件
Pandas是Python中强大的数据分析库,提供了灵活的数据结构如DataFrame和Series。通过`to_csv()`函数可轻松将数据保存为CSV文件。本文介绍了基本用法、常见问题(如编码、索引、分隔符等)及解决方案,并涵盖大文件处理和报错解决方法,帮助用户高效导出数据。
123 83
|
3天前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
98 73
|
14天前
|
存储 数据挖掘 数据处理
Pandas 数据筛选:条件过滤
Pandas 是 Python 最常用的数据分析库之一,提供了强大的数据结构和工具。本文从基础到高级,介绍如何使用 Pandas 进行条件过滤,包括单一条件、多个条件过滤、常见问题及解决方案,以及动态和复杂条件过滤的高级用法。希望本文能帮助你更好地利用 Pandas 处理数据。
130 78
|
11天前
|
数据挖掘 数据处理 数据库
Pandas数据聚合:groupby与agg
Pandas库中的`groupby`和`agg`方法是数据分析中不可或缺的工具,用于数据分组与聚合计算。本文从基础概念、常见问题及解决方案等方面详细介绍这两个方法的使用技巧,涵盖单列聚合、多列聚合及自定义聚合函数等内容,并通过代码案例进行说明,帮助读者高效处理数据。
75 32
|
9天前
|
数据挖掘 数据处理 索引
Pandas数据重命名:列名与索引为标题
Pandas 是强大的数据分析工具,支持灵活的数据结构和操作。本文介绍如何使用 Pandas 对 `DataFrame` 的列名和索引进行重命名,包括直接赋值法、`rename()` 方法及索引修改。通过代码示例展示了具体操作,并讨论了常见问题如名称冲突、数据类型不匹配及 `inplace` 参数的使用。掌握这些技巧可使数据更清晰易懂,便于后续分析。
54 29
|
5天前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
33 5
|
10天前
|
SQL 数据采集 数据挖掘
Pandas数据合并:concat与merge
Pandas是Python中强大的数据分析库,提供灵活高效的数据结构和工具。本文详细介绍了Pandas中的两种主要合并方法——`concat`和`merge`。`concat`用于沿特定轴连接多个Pandas对象,适用于简单拼接场景;`merge`则类似于SQL的JOIN操作,根据键合并DataFrame,支持多种复杂关联。文章还探讨了常见问题及解决方案,如索引对齐、列名冲突和数据类型不一致等,帮助读者全面掌握这两种方法,提高数据分析效率。
36 8

相关实验场景

更多