数据分析 | Pandas 200道练习题,每日10道题,学完必成大神(1)

简介: 数据分析 | Pandas 200道练习题,每日10道题,学完必成大神(1)

前期准备


import pandas as pd
import numpy as np


1.使用字典数据创建DataFrame


data = {
    'grammer':['python','java','go',np.nan,'python','C','C++'],
    'score':[1,np.nan,np.nan,4,5,7,8]
}
df = pd.DataFrame(data)
df

3e763ca8861a41b78a1083c5f91e597c.png


2.提取grammer列是"python"的行


这个使用布尔值索引

先判断哪一个列是python,再根据这个返回的布尔值结果取出对应的行


df['grammer']=='python'


02ffce5310bb4d30a487f1cfdace5488.png

# 布尔值索引
df[df['grammer']=='python']

a83766e0bec54fba8f18dc8db4da6fba.png


3.输出df的所有列名


df.columns


8894bf7a41c849b2a8fc23ad6da3cafd.png


4.将列名score修改为popularity


修改列名有两种方式进行修改


  1. 直接使用df.columns的方式重新命名,不过这种方式需要列出所有列名。
  2. 使用rename方法,注意如果需要原地修改需要带上inplace=True的参数,否则原dataframe列名不会发生改变。


方式1


df.columns = ['grammer','popularity']


方式2


# 修改第二列列名为popularity
df.rename(columns={'score':'popularity'},inplace=True)
df


a62f5e63e34c45f092127446cf09c86d.png


5.统计grammer列中每种编程语言出现的次数


value_counts() 统计一列中不同元素出现的个数,自动剔除空值


df['grammer'].value_counts()


b6e2485e20334731a1c0d9225a6571a7.png


6.将空值用上下值的平均值填充


注意这个平均值不是所有值的平均值,而是空值上下两个值的平均值

interpolate() # 求上下值得平均值

.fillna() 填充所有空值


# 将空值用上下值得平均值填充
df['popularity'].interpolate()  # 求上下值得平均值
df['popularity'].fillna(df['popularity'].interpolate())  # 填充空值
df['popularity'] = df['popularity'].fillna(df['popularity'].interpolate()) # 替换原数据
df


aa00d561491c47bca6ad6471ed33b499.png


7.提取popularity中值大于3的行


# 提取popularity中值大于3的行
df[df['popularity'] > 3]  # 布尔值索引


ae01a51e2dcc434d89add1f1240df30e.png


8.按照grammer列进行去除重复值的行


drop_duplicates()删除指定列重复的行,默认不修改原数据,如果想修改原数据需要添加参数inplace=True


# 按照grammer列进行去除重复值的行
df.drop_duplicates(['grammer'])


ac1e31f6340a41f5a5aea6638d83420f.png


9.计算popularity列平均值


mean() 求数据型列的平均值,不包含空值


# 计算popularity列平均值
df['popularity'].mean()


efb471f3be2c47149f8a143c9583a298.png


10.将grammer列转换成list


因为在做一些分析的时候使用python的列表操作更加的方便

to_list() 是pandas自带的转换成list的函数,不会出现转换后数据有问题的情况


cf6ca59b25ae4ad5b9e9692ca9c61535.png


相关文章
|
7天前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
24 2
|
7天前
|
数据采集 数据挖掘 数据处理
Python数据分析:Numpy、Pandas高级
在上一篇博文中,我们介绍了Python数据分析中NumPy和Pandas的基础知识。本文将深入探讨NumPy和Pandas的高级功能,并通过一个综合详细的例子展示这些高级功能的应用。
|
8天前
|
数据采集 数据挖掘 数据处理
Python数据分析:Numpy、Pandas基础
本文详细介绍了 Python 中两个重要的数据分析库 NumPy 和 Pandas 的基础知识,并通过一个综合的示例展示了如何使用这些库进行数据处理和分析。希望通过本篇博文,能更好地理解和掌握 NumPy 和 Pandas 的基本用法,为后续的数据分析工作打下坚实的基础。
|
6天前
|
存储 数据可视化 数据挖掘
Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化
Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化
16 0
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
【7月更文挑战第12天】Python的Pandas和NumPy库助力高效数据处理。Pandas用于数据清洗,如填充缺失值和转换类型;NumPy则擅长数组运算,如元素级加法和矩阵乘法。结合两者,可做复杂数据分析和特征工程,如产品平均销售额计算及销售额标准化。Pandas的时间序列功能,如移动平均计算,进一步增强分析能力。掌握这两者高级技巧,能提升数据分析质量和效率。
32 4
|
1月前
|
数据采集 机器学习/深度学习 数据可视化
了解数据科学面试中的Python数据分析重点,包括Pandas(DataFrame)、NumPy(ndarray)和Matplotlib(图表绘制)。
【7月更文挑战第5天】了解数据科学面试中的Python数据分析重点,包括Pandas(DataFrame)、NumPy(ndarray)和Matplotlib(图表绘制)。数据预处理涉及缺失值(dropna(), fillna())和异常值处理。使用describe()进行统计分析,通过Matplotlib和Seaborn绘图。回归和分类分析用到Scikit-learn,如LinearRegression和RandomForestClassifier。
50 3
|
1月前
|
数据采集 数据挖掘 数据处理
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
【7月更文挑战第14天】Python的Pandas和NumPy库是数据分析的核心工具。Pandas以其高效的数据处理能力,如分组操作和自定义函数应用,简化了数据清洗和转换。NumPy则以其多维数组和广播机制实现快速数值计算。两者协同工作,如在DataFrame与NumPy数组间转换进行预处理,提升了数据分析的效率和精度。掌握这两者的高级功能是提升数据科学技能的关键。**
25 0
|
1月前
|
数据挖掘 数据处理 决策智能
Python 数据分析工具箱:深挖 Pandas 与 NumPy 高级功能,驱动智能决策
【7月更文挑战第12天】Python的Pandas和NumPy是数据分析的基石。Pandas提供灵活的数据结构如DataFrame,用于高效处理关系型数据,而NumPy则以多维数组和科学计算功能著称。两者结合,支持数据合并(如`pd.merge`)、时间序列分析(`pd.to_datetime`)和高级数组运算。通过掌握它们的高级特性,能提升数据分析效率,应用于各领域,如金融风险评估、市场分析和医疗预测,助力数据驱动的决策。学习和熟练运用Pandas与NumPy是成为出色数据分析师的关键。
29 0
|
1月前
|
机器学习/深度学习 数据可视化 搜索推荐
Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。
【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化,以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践,可以提升社交媒体分析能力。
51 1
|
1月前
|
数据挖掘 Python
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
67 0