Pandas 合并多个 (300多个) Excel 文件,并输出为 CSV 文件

简介: Pandas 合并多个 (300多个) Excel 文件,并输出为 CSV 文件

Pandas 合并多个 (300多个) Excel 文件,并输出为 CSV 文件


爬虫同事帮忙爬了个网站信息,网站上有300多页,每页生成一个 Excel 文件,为方便处理,我需要合并成一个 all.csv 文件。

不废话,上代码:

import pandas as pd
import os
def process_data():
    folder_path = r'/Users/example'         
     # 要拼接的文件夹及其完整路径,注意不要包含中文
    saveFile_path =  r'/Users/example/'       #拼接后要保存的文件路径
    saveFile_name = r'all.csv'                #合并后要保存的文件名
    # 修改当前工作目录
    os.chdir(folder_path)
    # 将该文件夹下的所有文件名存入一个列表
    file_list = os.listdir()
    # print(file_list)
    # 读取第一个CSV文件并包含表头,默认编码方式为 UTF-8
    df = pd.read_excel(folder_path + '/'+ file_list[0])   
    print(df)
    # 将读取的第一个 CSV 文件写入合并后的文件保存
    df.to_csv(saveFile_path + saveFile_name,index=False)
    # 遍历列表中所有 CSV 并追加到合并文件的末尾
    for i in range(1,len(file_list)):
        print(folder_path + '/'+  file_list[i])
        # 如果是以下两个文件,则跳过
        if file_list[i] == 'all.csv' or file_list[i] == '.DS_Store':
            pass
        else:
            # 不包含表头
            df = pd.read_excel(folder_path + '/'+  file_list[i], header = 1)
            df.to_csv(saveFile_path + saveFile_name,index=False, header=False, mode='a+')
if __name__ == '__main__':
    process_data()

代码思想有借鉴 https://blog.csdn.net/kxw1994/article/details/76465152 中的方法,特此感谢。

以上,问题解决~

相关文章
|
26天前
|
存储 数据挖掘 Java
csv和excel
【10月更文挑战第18天】csv和excel
67 5
|
1月前
|
数据处理 Python
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
这篇文章介绍了如何使用Python读取Excel文件中的数据,处理后将其保存为txt、xlsx和csv格式的文件。
49 3
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
|
19天前
|
存储 Java API
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
25 4
|
23天前
|
JavaScript 前端开发 数据处理
Vue导出el-table表格为Excel文件的两种方式
Vue导出el-table表格为Excel文件的两种方式
|
1月前
|
easyexcel Java UED
SpringBoot中大量数据导出方案:使用EasyExcel并行导出多个excel文件并压缩zip后下载
在SpringBoot环境中,为了优化大量数据的Excel导出体验,可采用异步方式处理。具体做法是将数据拆分后利用`CompletableFuture`与`ThreadPoolTaskExecutor`并行导出,并使用EasyExcel生成多个Excel文件,最终将其压缩成ZIP文件供下载。此方案提升了导出效率,改善了用户体验。代码示例展示了如何实现这一过程,包括多线程处理、模板导出及资源清理等关键步骤。
|
1月前
|
数据处理 Python
Python 高级技巧:深入解析读取 Excel 文件的多种方法
在数据分析中,从 Excel 文件读取数据是常见需求。本文介绍了使用 Python 的三个库:`pandas`、`openpyxl` 和 `xlrd` 来高效处理 Excel 文件的方法。`pandas` 提供了简洁的接口,而 `openpyxl` 和 `xlrd` 则针对不同版本的 Excel 文件格式提供了详细的数据读取和处理功能。此外,还介绍了如何处理复杂格式(如合并单元格)和进行性能优化(如分块读取)。通过这些技巧,可以轻松应对各种 Excel 数据处理任务。
178 16
|
1月前
|
JSON 数据格式
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
70 2
|
1月前
|
IDE 开发工具 数据安全/隐私保护
Python编程--实现用户注册信息写入excel文件
Python编程--实现用户注册信息写入excel文件
|
2月前
|
Python
pandas 生成 Excel 时的 sheet 问题
pandas 生成 Excel 时的 sheet 问题
34 1
|
1月前
|
前端开发 JavaScript API
前端基于XLSX实现数据导出到Excel表格,以及提示“文件已经被损坏,无法打开”的解决方法
前端基于XLSX实现数据导出到Excel表格,以及提示“文件已经被损坏,无法打开”的解决方法
127 0