数据分析 | Pandas 200道练习题,每日10道题,学完必成大神(1)

简介: 数据分析 | Pandas 200道练习题,每日10道题,学完必成大神(1)

前期准备


import pandas as pd
import numpy as np


1.使用字典数据创建DataFrame


data = {
    'grammer':['python','java','go',np.nan,'python','C','C++'],
    'score':[1,np.nan,np.nan,4,5,7,8]
}
df = pd.DataFrame(data)
df

3e763ca8861a41b78a1083c5f91e597c.png


2.提取grammer列是"python"的行


这个使用布尔值索引

先判断哪一个列是python,再根据这个返回的布尔值结果取出对应的行


df['grammer']=='python'


02ffce5310bb4d30a487f1cfdace5488.png

# 布尔值索引
df[df['grammer']=='python']

a83766e0bec54fba8f18dc8db4da6fba.png


3.输出df的所有列名


df.columns


8894bf7a41c849b2a8fc23ad6da3cafd.png


4.将列名score修改为popularity


修改列名有两种方式进行修改


  1. 直接使用df.columns的方式重新命名,不过这种方式需要列出所有列名。
  2. 使用rename方法,注意如果需要原地修改需要带上inplace=True的参数,否则原dataframe列名不会发生改变。


方式1


df.columns = ['grammer','popularity']


方式2


# 修改第二列列名为popularity
df.rename(columns={'score':'popularity'},inplace=True)
df


a62f5e63e34c45f092127446cf09c86d.png


5.统计grammer列中每种编程语言出现的次数


value_counts() 统计一列中不同元素出现的个数,自动剔除空值


df['grammer'].value_counts()


b6e2485e20334731a1c0d9225a6571a7.png


6.将空值用上下值的平均值填充


注意这个平均值不是所有值的平均值,而是空值上下两个值的平均值

interpolate() # 求上下值得平均值

.fillna() 填充所有空值


# 将空值用上下值得平均值填充
df['popularity'].interpolate()  # 求上下值得平均值
df['popularity'].fillna(df['popularity'].interpolate())  # 填充空值
df['popularity'] = df['popularity'].fillna(df['popularity'].interpolate()) # 替换原数据
df


aa00d561491c47bca6ad6471ed33b499.png


7.提取popularity中值大于3的行


# 提取popularity中值大于3的行
df[df['popularity'] > 3]  # 布尔值索引


ae01a51e2dcc434d89add1f1240df30e.png


8.按照grammer列进行去除重复值的行


drop_duplicates()删除指定列重复的行,默认不修改原数据,如果想修改原数据需要添加参数inplace=True


# 按照grammer列进行去除重复值的行
df.drop_duplicates(['grammer'])


ac1e31f6340a41f5a5aea6638d83420f.png


9.计算popularity列平均值


mean() 求数据型列的平均值,不包含空值


# 计算popularity列平均值
df['popularity'].mean()


efb471f3be2c47149f8a143c9583a298.png


10.将grammer列转换成list


因为在做一些分析的时候使用python的列表操作更加的方便

to_list() 是pandas自带的转换成list的函数,不会出现转换后数据有问题的情况


cf6ca59b25ae4ad5b9e9692ca9c61535.png


相关文章
|
25天前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
123 71
|
24天前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
135 73
|
2月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
107 0
|
21天前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
66 22
|
26天前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
62 5
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
61 2
|
2月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
70 2
|
2月前
|
数据采集 数据可视化 数据挖掘
Python数据分析:Pandas库实战指南
Python数据分析:Pandas库实战指南
|
2月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
2月前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南

热门文章

最新文章