1 pandas简介
1.Pandas是什么?
Pandas是一个强大的分析结构化数据的工具集;
它的使用基础是Numpy(提供高性能的矩阵运算);
用于数据挖掘和数据分析,同时也提供数据清洗功能。
2.DataFrame
DataFrame是Pandas中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。
pandas 相当于 python 中 excel:它使用表(也就是 dataframe),能在数据上做各种变换,但还有其他很多功能。
class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
3.Series
它是一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。
4.pandas 网址
2 导入
还需要执行以下导入才能开始:
import pandas as pd import numpy as np
3 使用
# 使用Pandas >>> import pandas as pd >>> df = pd.DataFrame() >>> print(df) # 输出结果 Empty DataFrame Columns: [] Index: []
4 读取、写入
import pandas as pd df = pd.read_excel("D:/项目/资料/People.xlsx") # 把文件读到内存中形成DataFrame print(df.shape) # 读取文件行数和列数 print(df.columns) # 读取列名 print(df.head(3)) # 打印前3行 print(df.tail(3)) # 打印后3行 df = pd.DataFrame({"ID":[1,2,3],"Name":["jack","小明","小红"]}) df = df.set_index("ID") # 把ID那一列当索引,并产生新的DataFrame df.to_excel("D:/项目/我爱你.xlsx") # 写入文件 print("Done!")