python数据分析基础008 -利用pandas带你玩转excel表格(中下篇)

简介: python数据分析基础008 -利用pandas带你玩转excel表格(中下篇)

文章要点

image.png

🍺前言

image.png

🍁(一)利用pandas将excel中的数据绘制成可视化图形image.png

🔥1.在excel中实现image.pngimage.png要在python中实现上述在excel中的操作,该如何做呢?下面就让我们在python下实现吧!利用pandas和matplotlib绘制出来的图形更直观。

🔥2.在pandas中实现

  1. 导入pandas以及matplotlib模块
import pandas as pd
from matplotlib import pyplot as plt
  1. 读取excel表格数据,并将其进行排序
student_data = pd.read_excel('./excel/testpicture.xlsx')
df = pd.DataFrame(student_data)
# 对数据进行排序
df.sort_values(by=['2016','2017'],inplace=True,ascending=False)
  1. 绘制图形,并对x轴的说明进行调整
# 绘制条形图
df.plot.bar(x = 'Field',y = ['2016','2017'] , color = ['red', 'blue'])
# plt.xticks(rotation = 45,ha= 'right')
# 获取x轴,对x轴的说明进行调整,rotation表示倾斜的度数,ha表示水平旋转
ax = plt.gca()
ax.set_xticklabels(df['Field'] ,rotation = 45, ha = 'right')
  1. 设置xy轴以及标题的说明
# 设置xy轴的说明
plt.xlabel('field')
plt.ylabel('data of number')
# 加标题
plt.title("Student of Number" ,fontsize =20,color = 'green')
  1. 使图片完整显示(两种方法)
# 对于标签名字太长显示不全,可以用tight_layout()将标签在图中完全显示出来
# plt.tight_layout()
# 获取图形,调整图形与边缘的距离
picture= plt.gcf()
picture.subplots_adjust(left =0.5 ,bottom = 0.1)
  1. 保存及展示
plt.savefig('./excel.png')
plt.show()

结果:image.pngimage.pngimage.png

🍁(二)利用pandas实现多表联合1.python数据分析基础001 -matplotlib的基础绘图

在一个ecxel中可以有很多张表,通常这些表合并在一起又会生成一个新的数据。

实例:将这两张表的学生成绩打印出来image.pngimage.png

🔥1.在excel中实现

使用VLOOKUOP函数进行联合image.png📌注:在VLOOKUP中若是匹配不到数值,则会进行近似匹配,如上结果所示,21号学生成绩不存在,则近似匹配上一个的值。

若不想近似匹配则将默认值改为True。

=VLOOKUP(A2,Scores!A1:B21,2,FALSE)image.png若要显示为0,则需要用到IFNA函数。

image.png这样就完成了将两表联合查询到了学生的成绩。那么在pandas中该如何实现呢?

🔥2.在pandas中实现image.png

student = pd.read_excel('./excel/testone.xlsx',sheet_name='Students')
score = pd.read_excel('./excel/testone.xlsx',sheet_name='Scores')

image.png

import pandas as pd
student = pd.read_excel('./excel/testone.xlsx',sheet_name='Students')
score = pd.read_excel('./excel/testone.xlsx',sheet_name='Scores')
df_student = pd.DataFrame(student)
df_score = pd.DataFrame(score)
# how 表留左边表格数据,on按照id匹配,fillna将没有匹配到的值赋予0
# result = student.merge(score,how='left',on='ID').fillna(0)
result = student.merge(score,how='left',left_on='ID',right_on='ID').fillna(0)
# 修改Score的数据类型原本为float
result.Score = result.Score.astype(int)
print(result)

结果:

image.png

🍁(三)数据校验

在excel表格中,通常会有一些数据不符合我们的规范要求,从而导致我们的到的数据不准确,因此我们需要将他们筛选出来。那么我们该怎么做呢?

实例:将成绩不符合0-100的数据筛选出来image.png

🔥1.在excel表格中实现

image.png结果:image.png需要找出不符合的数据,在pandas中又如何操作呢?

🔥2.在pandas中实现image.png

import pandas as pd
def Score_false(x):
    if not 100>= x.Score >=0 :
        print("ID为{},姓名为:{}的学生成绩异常,成绩为:{}".format(x.ID,x.Name,x.Score))
score = pd.read_excel('./excel/testtwo.xlsx')
df = pd.DataFrame(score)
# axis=1则从行查询 axis=0则从列查询
df.apply(Score_false,axis=1)

结果:image.png

🍁(四)拆分列image.png

🔥1.在excel中实现image.png

那么在pandas中又如何实现呢?

🔥2.在pandas中实现image.png

import pandas as pd
test = pd.read_excel('./excel/testthree.xlsx')
df = pd.DataFrame(test)
name = df['Full Name'].str.split(expand = True)
df['firstname'] = name[0]
df['lastname'] = name[1]
print(df)

结果:image.png

🍻结语

相关文章
|
16天前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
115 71
|
15天前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
119 73
|
12天前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
54 22
|
6天前
|
存储 数据挖掘 数据处理
Python Pandas入门:行与列快速上手与优化技巧
Pandas是Python中强大的数据分析库,广泛应用于数据科学和数据分析领域。本文为初学者介绍Pandas的基本操作,包括安装、创建DataFrame、行与列的操作及优化技巧。通过实例讲解如何选择、添加、删除行与列,并提供链式操作、向量化处理、索引优化等高效使用Pandas的建议,帮助用户在实际工作中更便捷地处理数据。
17 2
|
17天前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
52 5
|
2月前
|
机器学习/深度学习 算法 数据挖掘
数据分析的 10 个最佳 Python 库
数据分析的 10 个最佳 Python 库
128 4
数据分析的 10 个最佳 Python 库
|
2月前
|
数据采集 数据可视化 数据处理
Python数据科学:Pandas库入门与实践
Python数据科学:Pandas库入门与实践
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
2月前
|
数据采集 数据可视化 数据挖掘
Python数据分析:Pandas库实战指南
Python数据分析:Pandas库实战指南
|
2月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集