数据分析 | Pandas 200道练习题,每日10道题,学完必成大神(2)

简介: 数据分析 | Pandas 200道练习题,每日10道题,学完必成大神(2)

前期准备


准备后期要使用的数据,使用字典创建DataFrame对象


import pandas as pd
import numpy as np
data = {
    'grammer':['python','java','go',np.nan,'python','C','C++'],
    'popularity':[1,np.nan,np.nan,4,5,7,8]
}
df = pd.DataFrame(data)
df


ac10baf7c5614290b84667da48df7282.png


1.通过DataFrame保存为EXCEL


保存文件的函数一般是 to_xxx


# 保存为EXCEL文件
df.to_excel('text.xlsx')
# 保存为csv文件
df.to_csv('text.csv')


2.查看数据行列数


通过DataFrame的对象的属性查看数据行列数

也可以通过其他的方式进行查询,但是这种是最便捷的


# .shape是属性 不用加括号
df.shape 


3.提取popularity列中值大于3小于7的行


使用的是布尔值索引还有进行合取操作


df[(df['popularity']>3) & (df['popularity']<7)]


5ecb651320c34300bdea19b272b6b86a.png


4.交换两列的位置


其实这个交换位置,内在的逻辑就是先取出交换后的数据,再将交换后的数据重新赋值给df


df = df[['popularity','grammer']]
df


4ab5dbefc9424172b48a8fe57d0838fb.png


5.提取popularity列最大的行所在行


使用到了max函数同样还有min函数,

使用这个方法避免了数据中出现两个最大值而而只取出一个的情况。


df[df['popularity']== df['popularity'].max()]


c48256ff2e4b4c5b8535bfcc56697422.png


6.查看最后3行数据


使用的是tail()函数,默认是最后5行,在括号里面传入X就会返回最后X

同样还用head() 用法是一样的


# 查看最后3行的数据
df.tail(3)


536b40e7ae074294a6d7c514ebf13d6b.png


7.删除最后一行数据


主要的思路是选中最后一行,然后删除,这种方式还可以删除多行


# 方式1
df.drop([len(df)-1],inplace=True)
# 方式2
df.drop([df.shape[0]-1],inplace=True)
df


8dd1e67849b049c7a08f0135e32862b3.png


8.添加一行数据


append() 添加数据,使用字典添加,字典的键是列名,值是要添加的数据,如果字典的键在DataFrame

中不存在,则会新建一列,其余的行设置为NaN


row = {'grammer':'Perl','popularity':6.6}
df.append(row,ignore_index=True)   # 忽略行索引


f518d2ef3a3f4f2a95b1da7125c75f96.png


9.队数据按照popularity列的值的大小进行排序


使用sort_values函数,按值排序,默认是升序 添加参数ascending=False可以变为降序


df.sort_values('popularity')  # 不会修改原数据
df.sort_values('popularity',inplace=True)  # 修改原数据


6084683610b74bd1afb468cb872ddea7.png


10.统计grammer列每个字符串的长度


因为计算字符的长度,不能为NaN不然会报错,所以我们在计算字符串的长度的时候可以选择先将孔空缺的数据填充上去,然后在计算长度


df['grammer'] = df['grammer'].fillna("R")   # 将空缺的数据填充为R 也可以填充为一个空字符
df['len_str'] = df['grammer'].map(len)     # 使用map函数,map函数传入一个函数,每一行的数据会依次调用这个函数
df


6aff744d115e4fc39d1efcdd35673134.png


今天这10道题还是比较轻松的,希望大家能够多多拓展,拓宽自己的思路,尝试一些新的方法。

这里我推荐大家去 牛客网 继续练习,牛客网里面有相应题目的专项突破


69adff8ba4e84b2e91ded84094eb6334.png


相关文章
|
25天前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
123 71
|
24天前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
135 73
|
2月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
107 0
|
21天前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
66 22
|
26天前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
62 5
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
61 2
|
2月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
70 2
|
2月前
|
数据采集 数据可视化 数据挖掘
Python数据分析:Pandas库实战指南
Python数据分析:Pandas库实战指南
|
2月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
2月前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南