分享2个Python处理Excel的脚本

简介: 分享2个Python处理Excel的脚本

简说Python,号主老表,Python终身学习者,数据分析爱好者,从18年开始分享Python知识,原创文章227篇,写过Python、SQL、Excel入门文章,也写过Web开发、数据分析文章,老表还总结整理了一份2022Python学习资料和电子书资源,关注后私信回复:2022 即可领取。

本知识概要

  • pandas创建一个DataFrame对象
    pd.DataFrame()
  • pandas datafrmae索引
    按列名索引:dataframe[列名]
    按列值索引:dataframe[dataframe[列名]==列值]
  • pandas 读取、存储excel文件,存储csv文件
    read_excel、to_excel、to_csv
  • pandas datafrmae根据缩影取指定行数据
    dataframe.loc[list]
  • pandas datafrmae修改列名
    dataframe.rename(columns={'column_name_old':'column_name_new'})
  • pandas datafrmae将数据插入到指定列
    dataframe.insert(loc=列序号,column=列名,value=列值)
  • pandas datafrmae根据列名删除指定列
    dataframe.drop([列名],axis=1)
  • pandas 连接多个datafrmae
    pd.concat([df_1, df_2])

开始动手动脑

第一个读者需求

首先我们先看第一个读者的需求:原始数据有18个Excel文件,每个Excel文件里有34个sheet(34个省的相关数据),需要取出每个sheet中指定的几行数据,然后全部合并起来,存储到一个新的文件,命名为2000_2017年各省份碳排放数据。

经过沟通,我确定了最终输出文件的样式,以下数据都是用Excel中的随机函数生成:image.png

完成这个需求,如果是手动操作我们需要完成以下几个步骤:

0、新建一个Excel

1、打开第一个Excel

2、复制出每个sheet中需要的几行数据

3、将复制出来的数据粘贴到新建的Excel中

4、重复1-3,直到取出所有Excel中的数据

5、保存新建的Excel

如果只是1-2个文件,动手还可以接受,但是要是有几十个,几百个,如果靠动手就头大了。

现在我们看看以上手动操作换成代码操作需要那些步骤:

0、新建一个数据存储对象(我们用pandas中的Dataframe)

1、读取目标Excel文件

2、遍历取出每个sheet中需要的几行数据,存储到新建的Dataframe中

3、for循环遍历,读取所有目标Excel数据,并存储到新建的Dataframe中

4、将新建的Dataframe数据保存为一个Excel文件

了解了这些后,我们就开始愉快的代码之旅吧:

0、新建一个数据存储对象(我们用pandas中的Dataframe)

df_concat = pd.DataFrame()

1、读取目标Excel文件

文件一共有18个文件,文件名也是有规则的。

file_path = 'data/2000年-2017年碳排放清单/2000年30个省份排放清单.xlsx'
data = pd.read_excel(file_path, sheet_name=None)

2、遍历取出每个sheet中需要的几行数据,存储到新建的Dataframe中

为了代码的可读性,这里写了一个函数get_sheet_data来取出单个sheet中需要的数据,然后for循环遍历所有的sheet。

'''
取出单个sheet中需要的数据
'''
def get_sheet_data(data, sheet_name, year):
    # 取需要的几行数据
    df_concat = data[sheet_name].loc[[2,3,48,49]]
    # 给 Unnamed: 0 列进行重命名
    df_concat = df_concat.rename(columns={'Unnamed: 0':'类别'})
    # 插入两列数据 省份 年份
    df_concat.insert(loc=0,column='省份',value=sheet_name)
    df_concat.insert(loc=1,column='年份',value=i)
    # 将Total这列移动到第四列
    df_temp = df_concat['Total']
    df_concat = df_concat.drop(['Total'],axis=1)  # 先删除该列
    df_concat.insert(loc=3,column='Total',value=df_temp)  # 然后插入到第四列位置
    return df_concat
for sheet_name in list(data.keys()):
        if sheet_name == 'Sum':
            continue
        df_temp = get_sheet_data(data, sheet_name, year)
        df_concat = pd.concat([df_concat, df_temp])

3、for循环遍历,读取所有目标Excel数据,并存储到新建的Dataframe中

在上一步,已经读取出了单个Excel中的所有sheet,现在再利用for循环遍历读取所有Excel中的数据。

'''
取出单个Excel中需要的数据
'''
def get_excel_data(data, year):
    df_concat = pd.DataFrame()
    for sheet_name in list(data.keys()):
        if sheet_name == 'Sum':
            continue
        df_temp = get_sheet_data(data, sheet_name, year)
        df_concat = pd.concat([df_concat, df_temp])
    return df_concat
# 生成一个列表,存储时间
date_year = [str(i) for i in range(2000, 2018)]
for i in date_year:
    file_path = 'data/2000年-2017年碳排放清单/%s年30个省份排放清单.xlsx'%i
    data = pd.read_excel(file_path, sheet_name=None)
    df_temp = get_excel_data(data, i)
    df_concat = pd.concat([df_concat, df_temp])

4、将新建的Dataframe数据保存为一个Excel文件

这里直接调用pandas内置的to_excel函数,第一个参数为文件存储目录,第二个参数为sheet_name,第三个参数是编码格式,这里指定为utf-8。

print("开始存储数据")
df_concat.to_excel("data/2000_2017年省份碳排放数据.xlsx", "2000_2017", index=None, encoding="utf-8")
print("数据保存成功")

完整代码如下:

import pandas as pd
import time
'''
取出单个sheet中需要的数据
'''
def get_sheet_data(data, sheet_name, year):
    # 取需要的几行数据
    df_concat = data[sheet_name].loc[[2,3,48,49]]
    # 给 Unnamed: 0 列进行重命名
    df_concat = df_concat.rename(columns={'Unnamed: 0':'类别'})
    # 插入两列数据 省份 年份
    df_concat.insert(loc=0,column='省份',value=sheet_name)
    df_concat.insert(loc=1,column='年份',value=i)
    # 将Total这列移动到第四列
    df_temp = df_concat['Total']
    df_concat = df_concat.drop(['Total'],axis=1)  # 先删除该列
    df_concat.insert(loc=3,column='Total',value=df_temp)  # 然后插入到第四列位置
    return df_concat
'''
取出单个Excel中需要的数据
'''
def get_excel_data(data, year):
    df_concat = pd.DataFrame()
    for sheet_name in list(data.keys()):
        if sheet_name == 'Sum':
            continue
        df_temp = get_sheet_data(data, sheet_name, year)
        df_concat = pd.concat([df_concat, df_temp])
    return df_concat
# 0、新建一个数据存储对象(我们用pandas中的Dataframe)
df_concat = pd.DataFrame()
# 生成一个列表,存储时间
date_year = [str(i) for i in range(2000, 2018)]
# 1、遍历取出每个Excel中的每个sheet中需要的几行数据,存储到新建的Dataframe中
for i in date_year:
    file_path = 'data/2000年-2017年碳排放清单/%s年30个省份排放清单.xlsx'%i
    data = pd.read_excel(file_path, sheet_name=None)
    df_temp = get_excel_data(data, i)
    df_concat = pd.concat([df_concat, df_temp])
# 2、写入数据
print("开始存储数据")
df_concat.to_excel("data/2000_2017年省份碳排放数据.xlsx", "2000_2017", index=None, encoding="utf-8")
print("数据保存成功")

第二个读者需求

image.png

我们来看第二个读者的需求:原数据只有一个文件,里面有8个sheet,需要将每个sheet中的几列取出来,然后根据日期存储为一个一个的csv文件。

完成这个需求,如果是手动操作我们需要完成以下几个步骤:

0、打开Excel文件

1、复制出每个sheet中需要的几行数据

2、根据日期进行排序

3、按日期将不同的数据存入不同csv文件

看似很简单,但实际却是复杂的,比如要手动创建保存365个csv文件,文件名字还不一样,想着就头大!

现在我们看看以上手动操作换成代码操作需要那些步骤:

0、新建一个数据存储对象(我们用pandas中的Dataframe)

1、读取目标Excel文件

2、遍历取出每个sheet中需要的几行数据,存储到新建的Dataframe中

3、根据日期进行分组,将不同日期数据存储到对应的文件

了解了这些后,我们就开始愉快的代码之旅吧:0、新建一个数据存储对象(我们用pandas中的Dataframe)

df_concat = pd.DataFrame()

1、读取目标Excel文件

file_path = 'data/meteo_china_tmin_2018.xlsx'
data = pd.read_excel(file_path, sheet_name=None)

2、遍历取出每个sheet中需要的几行数据,存储到新建的Dataframe中

for sheet_name in list(data.keys()):
    if sheet_name == 'meteo_china_tmin_2018':
        continue
    df_temp = data[sheet_name][['ymd', 'lat', 'lon', 'tmin']]
    df_concat = pd.concat([df_concat, df_temp])

3、根据日期进行分组,将不同日期数据存储到对应的文件

这里根据日期进行检索对应的数据,并调用to_csv函数存储数据,第一个参数为存储的目录,第二个参数columns为存储的数据列,第三个参数header=None表示存储的时候不需要表头,第四个参数index=False表示去除索引。

'''
按时间进行分组,并保存为csv文件
文件格式:hetao-ymd_tmin
'''
# 获取所有日期
ymd_set = set(df_concat['ymd'])
# 循环操作所有数据
for ymd in ymd_set:
    ymd_data = df_concat[df_concat['ymd']==ymd]
    ymd_data.to_csv('./data/hetao/hetao-%d_tmin.csv'%ymd, columns=['lat', 'lon', 'tmin'], header=None, index=False)

完整代码:

import pandas as pd
'''
读取、取出需要的数据并合并
'''
file_path = './data/meteo_china_tmin_2018.xlsx'
data = pd.read_excel(file_path, sheet_name=None)
df_concat = pd.DataFrame()
for sheet_name in list(data.keys()):
    if sheet_name == 'meteo_china_tmin_2018':
        continue
    df_temp = data[sheet_name][['ymd', 'lat', 'lon', 'tmin']]
    df_concat = pd.concat([df_concat, df_temp])
'''
按时间进行分组,并保存为csv文件
文件格式:hetao-ymd_tmin
'''
# 获取所有日期
ymd_set = set(df_concat['ymd'])
# 循环操作所有数据
for ymd in ymd_set:
    ymd_data = df_concat[df_concat['ymd']==ymd]
    # 指定存储的列,并且去掉表头
    ymd_data.to_csv('./data/hetao/hetao-%d_tmin.csv'%ymd, columns=['lat', 'lon', 'tmin'], header=None, index=False)

随便说说

五一结束,祝大家新的一周搬砖快乐。

另外大家如果有什么类似需求,或者想要本文所有相关样例数据和代码的,可以扫下方二维码添加我的微信,查看朋友圈获取。

欢迎大家进行学习交流。

相关文章
|
4月前
|
JSON 缓存 API
深度分析淘宝API接口,用Python脚本实现
本内容深入解析淘宝开放平台 API 的接口设计与 Python 实现,涵盖接口体系、认证机制、签名规则及限流策略,并提供完整的 Python 调用框架,适用于电商系统对接与自动化运营。
|
4月前
|
JSON 算法 API
深度分析小红书城API接口,用Python脚本实现
小红书作为以UGC内容为核心的生活方式平台,其非官方API主要通过移动端抓包解析获得,涵盖内容推荐、搜索、笔记详情、用户信息和互动操作等功能。本文分析了其接口体系、认证机制及请求规范,并提供基于Python的调用框架,涉及签名生成、登录态管理与数据解析。需注意非官方接口存在稳定性与合规风险,使用时应遵守平台协议及法律法规。
|
4月前
|
JSON API 数据安全/隐私保护
【干货满满】分享微店API接口到手价,用python脚本实现
微店作为知名社交电商平台,其开放平台提供商品查询、订单管理等API接口。本文介绍如何通过微店API获取商品到手价(含优惠、券等),涵盖认证机制、Python实现及关键说明。
|
4月前
|
JSON API 数据安全/隐私保护
【干货满满】分享淘宝API接口到手价,用python脚本实现
淘宝开放平台通过API可获取商品到手价,结合商品详情与联盟接口实现优惠计算。需使用AppKey、AppSecret及会话密钥认证,调用taobao.tbk.item.info.get接口获取最终价格。代码示例展示签名生成与数据解析流程。
|
4月前
|
JSON API 数据安全/隐私保护
深度分析苏宁API接口,用Python脚本实现
苏宁易购开放平台提供覆盖商品、订单、库存、门店等零售全链路的API服务,采用RESTful架构与“AppKey+AppSecret+签名”认证机制,支持线上线下一体化业务处理。本文详解其API特性、认证流程及Python调用实现。
|
4月前
|
自然语言处理 安全 API
深度分析洋码头API接口,用Python脚本实现
洋码头是国内知名跨境电商平台,专注于海外商品直购。本文基于其API的通用设计逻辑,深入解析了认证机制、签名规则及核心接口功能,并提供了Python调用示例,适用于商品与订单管理场景。
|
4月前
|
JSON API 数据格式
深度分析易贝API接口,用Python脚本实现
本文深度解析了eBay开放平台的RESTful API接口体系,涵盖其核心功能、OAuth 2.0认证机制、请求规范及限流策略,并基于Python构建了完整的API调用框架。内容包括商品与订单管理接口的实现逻辑、认证流程、错误处理机制及实战调用示例,适用于跨境电商系统开发与多平台集成。
|
4月前
|
JSON 监控 BI
深度分析亚马逊API接口,用Python脚本实现
本内容深度解析亚马逊SP-API接口体系,涵盖商品、订单、库存等核心功能域,详解LWA认证、AWS签名及Python调用实现,适用于跨境电商系统开发与集成。
|
4月前
|
JSON API 数据格式
深度分析大麦网API接口,用Python脚本实现
大麦网为国内领先演出票务平台,提供演唱会、话剧、体育赛事等票务服务。本文基于抓包分析其非官方接口,并提供Python调用方案,涵盖演出列表查询、详情获取及城市列表获取。需注意非官方接口存在稳定性风险,使用时应遵守平台规则,控制请求频率,防范封禁与法律风险。适用于个人学习、演出信息监控等场景。
|
2月前
|
人工智能 Java Linux
Python高效实现Excel转PDF:无Office依赖的轻量化方案
本文介绍无Office依赖的Python方案,利用Spire.XLS、python-office、Aspose.Cells等库实现Excel与PDF高效互转。支持跨平台部署、批量处理、格式精准控制,适用于服务器环境及自动化办公场景,提升转换效率与系统稳定性。
323 7

推荐镜像

更多