pandas 入门(二)

简介: 本文其实属于:Python的进阶之道【AIoT阶段一】的一部分内容,本篇把这部分内容单独截取出来,方便大家的观看,本文介绍 pandas 入门,后续还会单独发一篇 pandas 高级以及 pandas 进阶内容供读者学习。

3.数据查看

🚩接下来来介绍一些查看数据的方法:

import numpy as np
import pandas as pd
# 创建 shape(150, 3)的二维标签数组结构DataFrame
df = pd.DataFrame(data = np.random.randint(0, 151, size = (150, 3)),
                 columns = ['Python', 'English', 'Math'])
# 查看其属性、概览和统计信息
display(df.head(10))  # 显示头部10个,默认5个
display(df.tail(10))  # 查看末尾10个,默认5个
display(df.shape)     # 查看形状,行数和列数
display(df.dtypes)    # 查看数据类型
# 改变数据类型:
# 把 'Python' 一列的数据类型由 int32 改为 int64
df['Python'] = df['Python'].astype(np.int64)
display(df.dtypes)    # 查看数据类型
display(df.index)     # 查看行索引
display(df.columns)   # 查看列索引

28.png

import numpy as np
import pandas as pd
df = pd.DataFrame(data = np.random.randint(0, 151, size = (150, 3)),
                 columns = ['Python', 'English', 'Math'])
display(df.values)    # 查看对象值(即这个二维ndarray数组)

image.png

import numpy as np
import pandas as pd
df = pd.DataFrame(data = np.random.randint(0, 151, size = (150, 3)),
                 columns = ['Python', 'English', 'Math'])
# 查看数值类型列的汇总统计,计数、平均值、标准差、最小值、四分位数、最大值
display(df.describe()) 
# 查看列索引、数据类型、非空计数和内存信息
display(df.info())

image.png

4.数据输入和输出

4.1 csv

🚩我们想要存储数据,首先要创建数据:

import numpy as np
import pandas as pd
# 薪资情况:
df = pd.DataFrame(data = np.random.randint(0, 50, size = (50, 5)),
                  columns = ['IT', '化工', '生物', '教师', '士兵'])
display(df)

image.png

import numpy as np
import pandas as pd
# 薪资情况:
df = pd.DataFrame(data = np.random.randint(0, 50, size = (50, 5)),
                  columns = ['IT', '化工', '生物', '教师', '士兵'])
display(df)
# 保存到当前路径下,文件名是:salary.csv
df.to_csv('./salary.csv',
         sep = ';',        # 文本分隔符,默认是逗号
         header = True,    # 是否保存列索引
         index = True)     # 是否保存行索引
# 保存行索引,文件被加载时,默认行索引会作为一列

2.png

点击该文件就可以查看保存的数据信息:

3.png

能保存数据自然就有加载数据的操作:

pd.read_csv('./salary.csv',
           sep = ';',      # 默认是逗号
           header = [0],   # 指定列索引
           index_col = 0)  # 指定行索引

image.png

4.2 Excel

🚩如果要保存为 Excel 文件,我们需要装两个库:

pip install xlrd -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install xlwt -i https://pypi.tuna.tsinghua.edu.cn/simple

按下 Windows + R,输入 cmd,然后输入上述两行,如果你曾跟着NumPy从入门到进阶进行学习,这一步可以省略

import numpy as np
import pandas as pd
df1 = pd.DataFrame(data = np.random.randint(0, 50, size = [50,5]), # 薪资情况
                   columns = ['IT', '化工', '生物', '教师', '士兵'])
# 保存到当前路径下,文件命名是:salary.xlsx
df1.to_excel('./salary.xlsx',
            sheet_name = 'salary',# Excel中工作表的名字
            header = True,        # 是否保存列索引
            index = False)        # 是否保存行索引

这样我们就保存了 df1 的数据,并把文件存到了当前目录下:

4.png

注意这个文件我们在 jupyter 上是无法打开的,但是我们可以在文件管理中找到并打开:

5.png

接下来我们来读取这个文件:

pd.read_excel('./salary.xlsx',
              sheet_name = 0,   # 读取哪一个Excel中工作表,默认第一个
              header = 0)       # 使用第一行数据作为列索引

image.png

我们还可以替换列索引,比如我们把列索引替换为 ABCDE

pd.read_excel('./salary.xlsx',
              sheet_name = 0,  # 读取哪一个Excel中工作表,默认第一个
              header = 0,      # 使用第一行数据作为列索引
              names = list('ABCDE'))# 替换列索引

image.png

我们还可以指定行索引:

pd.read_excel('./salary.xlsx',
              sheet_name = 0,  # 读取哪一个Excel中工作表,默认第一个
              header = 0,      # 使用第一行数据作为列索引
              names = list('ABCDE'),
              index_col = 1)   # 替换列索引,index_col = 1 代表B作为行索引
# 感兴趣的读者可以自己运行一下:0 和 3
# index_col = 0 代表A作为行索引
# index_col = 3 代表D作为行索引

image.png

我们打开我们的 Excel 表格:

6.png

可以看到只有一个工作表,我们如果现在想再创建一个工作表用来存储其他数据,可以按下述操作:

# 创建一组新的数据:
# 计算机科目的考试成绩
df2 = pd.DataFrame(data = np.random.randint(0, 50, size = [150, 3]),
                   columns=['Python', 'Tensorflow', 'Keras'])
df2.to_excel('./salary.xlsx',
            sheet_name = 'test',# Excel中工作表的名字
            header = True,# 是否保存列索引
            index = False) # 是否保存行索引,保存行索引

我们再来查看一下我们的文件:

7.png

发现并没有实现我们预期的结果,下面来正式介绍一下如何操作:

# 一个Excel文件中保存多个工作表
with pd.ExcelWriter('./data.xlsx') as writer:
    df1.to_excel(writer,sheet_name = 'salary', index = False)
    df2.to_excel(writer,sheet_name = 'score', index = False)

8.png

这样就实现了我们的存入操作,接下来还是读取的操作:

读取 salary:

pd.read_excel('./data.xlsx',
              sheet_name='salary') # 读取Excel中指定名字的工作表 

image.png

读取 score:

pd.read_excel('./data.xlsx',
              sheet_name='score') # 读取Excel中指定名字的工作表 

image.png


目录
相关文章
|
4月前
|
数据可视化 数据挖掘 C++
一文入门数分三剑客--Numpy、Pandas、Matplotlib
一文入门数分三剑客--Numpy、Pandas、Matplotlib
123 0
|
22天前
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
23天前
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
3月前
|
数据采集 机器学习/深度学习 数据挖掘
Pandas简易入门指南
在数据科学和数据分析的世界中,Pandas库以其强大的数据处理能力而闻名。作为一个基于Python的开源库,Pandas提供了快速、灵活和富有表现力的数据结构,旨在使数据处理变得简单和直观。无论是处理时间序列数据、统计数据分析,还是进行数据清洗和准备,Pandas都是数据科学家的首选工具之一。
43 4
|
4月前
|
数据采集 SQL 数据可视化
使用Python和Pandas库进行数据分析的入门指南
使用Python和Pandas库进行数据分析的入门指南
118 0
|
4月前
|
索引 Python
【Pandas】- pandas入门
【Pandas】- pandas入门
|
4月前
|
数据采集 数据挖掘 数据处理
《Pandas 简易速速上手小册》第1章:Pandas入门(2024 最新版)
《Pandas 简易速速上手小册》第1章:Pandas入门(2024 最新版)
39 1
|
11月前
|
索引 Python
pandas 入门
pandas 入门
122 0
pandas 入门
|
4月前
|
SQL 存储 数据处理
Pandas入门指南:开启数据处理之旅
【4月更文挑战第16天】Pandas是Python中的数据处理库,提供高性能数据结构Series和DataFrame,简化数据操作。要开始使用,先安装Pandas:`pip install pandas`,然后`import pandas as pd`。Series是一维标签数组,DataFrame是二维表格数据。Pandas支持读写CSV、Excel、SQL数据,以及数据清洗、处理、筛选和排序。它是数据科学家和分析师处理结构化数据的得力工具。开始你的Pandas数据之旅吧!
|
4月前
|
数据挖掘 数据处理 索引
Pandas数据处理——渐进式学习1、Pandas入门基础
Pandas数据处理——渐进式学习1、Pandas入门基础
67 0