pandas库是python中几乎最长使用的库,其功能非常多。这里只记录下pandas对Excel文件的简单操作;
pandas介绍
Pandas是xlwt,xlrd库的封装库,拥有更全面的操作对象,csv,excel,dataframe等等。在xlwt等读写库的基础上实现一个库操作不同格式的文件。所以pandas依赖处理Excel的xlrd模块;
简单来说:pandas是库的封装库,功能更强大
pandas安装
推荐使用pip安装:pip是一个包管理工具
pip install pandas
pandas简单入门:
导入pandas
import pandas as pd
pandas中最重要的类型DataFrame的介绍:
DataFrame 是 Pandas 中的一种抽象数据对象(表格类型),Excel 中的数据都可以转换为 DataFrame 对象。
DataFrame 和 Excel 的属性
DataFrame sheet 页
Series 列
Index 行号
row 行
NaN 空单元格
- 简单读数据
1、读取文件,从第一行开始读,读取第一个sheet
data = pd.read_excel('urpan.xlsx',header=0)
> 读文件时传递参数介绍:
```python
io:待读取数据的文件
sheet_name: 指定读取该excel中具体哪个表的数据,默认为0,即为第一个表。如果传入1,则为第2个表;可指定传入表名,如"Sheet1";
也可传入多个表,如[0,‘Sheet3’],传入第一个表和名为’Sheet3’的表。
header: 指定作为列名的行,默认0,即取第一行的值为列名。数据为列名行以下的数据;若数据不含列名,则设定 header = None。
names: 默认为None,要使用的列名列表,如不包含标题行,应显示传递header=None
index_col: 指定某一列作为,为索引列
usecols: 读取固定的列,usecols=‘A:C, F’,读取A到C,和F列:
#读取文件,从第一行开始读,读取第一个sheet
data = pd.read_excel('H:/urpan.xlsx',header=0)
print(data.head(3))
print(data['year'])
print(data.index) # 查看索引
RangeIndex(start=0, stop=26, step=1)
print(data.values) # 查看数值(
print(data.shape) # 查看行数、列数 (26, 6)
print(data.head( 5 )) # 查看前5行
print(data.tail( 3 )) # 查看后3行
写文件简单入门
def write():
'''''' data = {'x':[1,2,3],'y':[4,5,6]} #转换成dataFrame df = pd.DataFrame(data) #生成文件 df.to_excel('H:/df.xlsx',sheet_name="df",index=True)
write()