使用Python批量合并Excel文件的所有Sheet数据

简介: 使用Python批量合并Excel文件的所有Sheet数据

在数据处理和分析的过程中,经常需要将多个Excel文件中的数据进行合并。特别是当这些文件分散在多个子文件夹内,且每个文件又包含多个Sheet时,手动合并这些数据会是一项繁琐且易出错的任务。Python作为一种强大的编程语言,提供了多种库和工具,可以方便地实现这一需求。本文将介绍四种使用Python批量合并同一文件夹内所有子文件夹下的Excel文件内所有Sheet数据的方法,并提供详细的代码和案例。

一、使用pandas和os库进行合并

pandas是一个强大的数据处理库,而os库则提供了与操作系统交互的功能。通过这两个库,我们可以遍历文件夹和子文件夹,读取Excel文件,并将数据合并到一个DataFrame中。

案例与代码实现

假设我们有一个名为excel_files的文件夹,其中包含多个子文件夹,每个子文件夹内都有若干个Excel文件。

import os  
import pandas as pd  
  
# 定义主文件夹路径  
main_folder = 'excel_files'  
  
# 初始化一个空的DataFrame用于存储所有数据  
all_data = pd.DataFrame()  
  
# 遍历主文件夹下的所有子文件夹和文件  
for root, dirs, files in os.walk(main_folder):  
    for file in files:  
        if file.endswith('.xlsx') or file.endswith('.xls'):  # 确保是Excel文件  
            file_path = os.path.join(root, file)  # 构建文件的完整路径  
            # 读取Excel文件中的所有Sheet  
            xls = pd.ExcelFile(file_path)  
            for sheet_name in xls.sheet_names:  
                df = pd.read_excel(xls, sheet_name=sheet_name)  
                # 将每个Sheet的数据追加到all_data中  
                all_data = all_data.append(df, ignore_index=True)  
  
# 将合并后的数据保存到新的Excel文件中  
all_data.to_excel('merged_data.xlsx', index=False)

这段代码首先定义了主文件夹路径,并初始化一个空的DataFrame。然后,使用os.walk()函数遍历主文件夹及其所有子文件夹中的文件。对于每个Excel文件,使用pd.ExcelFile()读取文件,并通过sheet_names属性获取所有Sheet的名称。接着,使用pd.read_excel()函数逐个读取Sheet中的数据,并将其追加到all_data DataFrame中。最后,将合并后的数据保存到新的Excel文件中。

二、使用glob和pandas库进行合并

glob库提供了在文件夹中查找文件路径的功能,结合pandas可以更方便地处理Excel文件。

案例与代码实现

import glob  
import pandas as pd  
  
# 定义主文件夹路径和搜索模式  
main_folder = 'excel_files'  
pattern = '**/*.xlsx'  # 搜索所有子文件夹中的.xlsx文件  
  
# 使用glob查找所有Excel文件路径  
all_files = glob.glob(main_folder + '/' + pattern, recursive=True)  
  
# 初始化一个空的DataFrame用于存储所有数据  
all_data = pd.DataFrame()  
  
# 遍历文件路径,读取数据并合并  
for file in all_files:  
    xls = pd.ExcelFile(file)  
    for sheet_name in xls.sheet_names:  
        df = pd.read_excel(xls, sheet_name=sheet_name)  
        all_data = all_data.append(df, ignore_index=True)  
  
# 保存合并后的数据  
all_data.to_excel('merged_data_glob.xlsx', index=False)

这段代码使用glob.glob()函数查找主文件夹及其所有子文件夹中的Excel文件路径。然后,与第一种方法类似,逐个读取每个文件中的所有Sheet数据,并将其合并到一个DataFrame中。最后,将合并后的数据保存到新的Excel文件中。

三、使用openpyxl库进行合并

openpyxl是一个用于读写Excel 2010 xlsx/xlsm/xltx/xltm文件的Python库。它可以更底层地操作Excel文件,提供更大的灵活性。

案例与代码实现

使用openpyxl进行合并通常涉及更复杂的操作,因为需要手动处理工作簿和工作表。这里仅提供一个大致的框架,具体实现会根据具体需求有所不同。

from openpyxl import load_workbook  
import os  
  
# 初始化一个新的工作簿用于存储合并后的数据  
merged_wb = load_workbook(write_only=True)
merged_ws = merged_wb.active
 
定义主文件夹路径
main_folder = 'excel_files'
 
遍历主文件夹下的所有子文件夹和文件
for root, dirs, files in os.walk(main_folder):
for file in files:
if file.endswith('.xlsx'): # 确保是Excel文件
file_path = os.path.join(root, file)
# 加载Excel文件
wb = load_workbook(filename=file_path, read_only=True)
# 遍历工作簿中的每个工作表
for sheet in wb.worksheets:
for row in sheet.iter_rows(values_only=True):
# 将行数据追加到合并后的工作表中
merged_ws.append(row)
 
保存合并后的工作簿
merged_wb.save('merged_data_openpyxl.xlsx')

这段代码创建了一个新的工作簿,并遍历主文件夹及其子文件夹中的所有Excel文件。对于每个文件,它加载工作簿并遍历其中的每个工作表。然后,使用`iter_rows()`方法逐行读取数据,并将其追加到合并后的工作表中。最后,保存合并后的工作簿。  

 

需要注意的是,`openpyxl`的`write_only`模式可以提高写入性能,但某些功能可能会受到限制。此外,这种方法假设所有工作表的结构都是相同的,如果结构不同,可能需要进行额外的处理。  

四、使用`xlrd`和`xlwt`库进行合并

(注意:`xlrd`库自2.0.0版本后不再支持.xlsx格式,仅支持.xls格式)  

 

`xlrd`和`xlwt`是两个用于读写老版Excel文件(.xls格式)的Python库。虽然它们对于处理新版的.xlsx文件有所限制,但对于.xls文件仍然有效。  

 

**案例与代码实现**  

 

由于`xlrd`不再支持.xlsx格式,这里仅提供一个处理.xls文件的示例。对于.xlsx文件,建议使用`pandas`或`openpyxl`。  

import os  
import xlrd  
import xlwt  
  
# 初始化一个新的工作簿用于存储合并后的数据  
merged_wb = xlwt.Workbook()  
merged_ws = merged_wb.add_sheet('MergedData')  
row_num = 0  
  
# 定义主文件夹路径  
main_folder = 'excel_xls_files'  
  
# 遍历主文件夹下的所有子文件夹和文件  
for root, dirs, files in os.walk(main_folder):  
    for file in files:  
        if file.endswith('.xls'):  # 确保是.xls文件  
            file_path = os.path.join(root, file)  
            # 加载Excel文件  
            wb = xlrd.open_workbook(file_path)  
            # 遍历工作簿中的每个工作表  
            for sheet in wb.sheets():  
                for row_idx in range(sheet.nrows):  
                    row_data = sheet.row_values(row_idx)  
                    # 将行数据写入合并后的工作表中  
                    for col_idx, value in enumerate(row_data):  
                        merged_ws.write(row_num, col_idx, value)  
                    row_num += 1  
  
# 保存合并后的工作簿  
merged_wb.save('merged_data_xlrd_xlwt.xls')

这段代码创建了一个新的工作簿和一个工作表,用于存储合并后的数据。然后,它遍历主文件夹及其子文件夹中的所有.xls文件,加载每个文件的工作簿,并遍历其中的每个工作表。对于每个工作表中的行,它读取行数据并将其写入合并后的工作表中。最后,保存合并后的工作簿。

总结:

本文介绍了四种使用Python批量合并同一文件夹内所有子文件夹下的Excel文件内所有Sheet数据的方法。这些方法分别使用了不同的库和工具,各有其优缺点。在实际应用中,可以根据具体需求和文件格式选择合适的方法。通过合理使用这些工具,可以大大提高数据处理和分析的效率。对于新手朋友来说,建议从简单的方法开始尝试,逐步掌握更高级的技巧和工具。


目录
相关文章
|
5月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
3003 1
|
5月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
600 0
|
6月前
|
数据可视化 Linux iOS开发
Python脚本转EXE文件实战指南:从原理到操作全解析
本教程详解如何将Python脚本打包为EXE文件,涵盖PyInstaller、auto-py-to-exe和cx_Freeze三种工具,包含实战案例与常见问题解决方案,助你轻松发布独立运行的Python程序。
1528 2
|
5月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
7月前
|
机器学习/深度学习 新能源 调度
电力系统短期负荷预测(Python代码+数据+详细文章讲解)
电力系统短期负荷预测(Python代码+数据+详细文章讲解)
627 1
|
5月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
7月前
|
缓存 API 网络架构
淘宝item_search_similar - 搜索相似的商品API接口,用python返回数据
淘宝联盟开放平台中,可通过“物料优选接口”(taobao.tbk.dg.optimus.material)实现“搜索相似商品”功能。该接口支持根据商品 ID 获取相似推荐商品,并返回商品信息、价格、优惠等数据,适用于商品推荐、比价等场景。本文提供基于 Python 的实现示例,包含接口调用、数据解析及结果展示。使用时需配置淘宝联盟的 appkey、appsecret 和 adzone_id,并注意接口调用频率限制和使用规范。
|
6月前
|
存储 监控 API
Python实战:跨平台电商数据聚合系统的技术实现
本文介绍如何通过标准化API调用协议,实现淘宝、京东、拼多多等电商平台的商品数据自动化采集、清洗与存储。内容涵盖技术架构设计、Python代码示例及高阶应用(如价格监控系统),提供可直接落地的技术方案,帮助开发者解决多平台数据同步难题。
|
6月前
|
存储 JSON 算法
Python集合:高效处理无序唯一数据的利器
Python集合是一种高效的数据结构,具备自动去重、快速成员检测和无序性等特点,适用于数据去重、集合运算和性能优化等场景。本文通过实例详解其用法与技巧。
195 0
|
5月前
|
监控 机器人 编译器
如何将python代码打包成exe文件---PyInstaller打包之神
PyInstaller可将Python程序打包为独立可执行文件,无需用户安装Python环境。它自动分析代码依赖,整合解释器、库及资源,支持一键生成exe,方便分发。使用pip安装后,通过简单命令即可完成打包,适合各类项目部署。
971 68

热门文章

最新文章

推荐镜像

更多