使用openpyxl库从Excel文件中提取指定的数据并生成新的文件

简介: 使用openpyxl库从Excel文件中提取指定的数据并生成新的文件

一、引言

Excel文件作为数据处理和存储的重要工具,在日常办公和数据分析中扮演着不可或缺的角色。openpyxl是一个用于读取、写入Excel 2010 xlsx/xlsm/xltx/xltm文件的Python库。它允许用户通过编程的方式操作Excel文件,包括读取数据、修改数据以及生成新的Excel文件。本文将详细介绍如何使用openpyxl库从Excel文件中提取指定的数据,并生成新的Excel文件。通过案例和代码,帮助新手朋友快速掌握这一技能。

二、openpyxl库的安装与基本用法

在开始使用openpyxl之前,需要先安装这个库。可以通过pip命令在终端或命令提示符中安装:

pip install openpyxl

安装完成后,我们就可以开始使用openpyxl库来操作Excel文件了。下面是一个简单的示例,展示如何打开一个Excel文件并读取其中的数据:

1. from openpyxl import load_workbook  
2.   
3. # 加载Excel文件  
4. workbook = load_workbook('example.xlsx')  
5.   
6. # 获取活动工作表(默认打开的工作表)  
7. sheet = workbook.active  
8.   
9. # 读取单元格数据  
10. cell_value = sheet['A1'].value  
11. print(cell_value)

在上面的代码中,我们首先导入了openpyxl库中的load_workbook函数。然后,使用该函数加载了一个名为example.xlsx的Excel文件,并获取了其中的活动工作表。最后,通过指定单元格的位置(如'A1'),读取了该单元格中的数据并打印出来。

三、从Excel文件中提取指定数据

在实际应用中,我们通常需要提取Excel文件中特定区域或满足某些条件的数据。下面将介绍几种常见的提取数据的方法。

按行或列提取数据

我们可以使用openpyxl提供的迭代功能,按行或列遍历工作表中的数据。以下是一个按行提取数据的示例:

1. from openpyxl import load_workbook  
2.   
3. # 加载Excel文件  
4. workbook = load_workbook('example.xlsx')  
5. sheet = workbook['Sheet1']  # 指定工作表名称  
6.   
7. # 按行提取数据  
8. for row in sheet.iter_rows(min_row=2, max_col=3, max_row=5):  # 提取第2行到第5行,第1列到第3列的数据  
9.     for cell in row:  
10.         print(cell.value)

在上面的代码中,我们使用iter_rows方法按行遍历了指定区域的数据。通过指定min_row、max_col和max_row参数,我们可以控制提取数据的范围。然后,通过遍历每一行中的单元格,提取并打印出它们的数据。

根据条件筛选数据

除了按行或列提取数据外,我们还可以根据特定的条件来筛选数据。以下是一个根据条件筛选数据的示例:

1. from openpyxl import load_workbook  
2.   
3. # 加载Excel文件  
4. workbook = load_workbook('example.xlsx')  
5. sheet = workbook['Sheet1']  
6.   
7. # 根据条件筛选数据  
8. filtered_data = []  
9. for row in sheet.iter_rows(values_only=True):  # 提取所有行的数据,只包含值,不包含单元格对象  
10.     if row[0] > 100:  # 假设第一列是数值,筛选出大于100的行  
11.         filtered_data.append(row)  
12.   
13. # 打印筛选结果  
14. for data in filtered_data:  
15.     print(data)

在上面的代码中,我们首先使用iter_rows方法提取了所有行的数据,并设置values_only参数为True,以便只获取单元格的值而不包含单元格对象。然后,通过遍历每一行数据,并根据第一列的值进行条件判断,将符合条件的行添加到filtered_data列表中。最后,遍历filtered_data列表并打印出筛选结果。

四、生成新的Excel文件

在提取了指定数据后,我们可能需要将这些数据保存到一个新的Excel文件中。openpyxl库同样提供了创建和保存Excel文件的功能。以下是一个生成新Excel文件的示例:

1. from openpyxl import Workbook  
2.   
3. # 创建一个新的工作簿对象  
4. new_workbook = Workbook()  
5.   
6. # 获取活动工作表  
7. new_sheet = new_workbook.active  
8.   
9. # 假设我们已经从原始Excel文件中提取了数据,并将其保存在一个列表中  
10. # 列表中的每个元素也是一个列表,表示一行数据  
11. extracted_data = [  
12.     ['Name', 'Age', 'Gender'],  
13.     ['Alice', 25, 'Female'],  
14.     ['Bob', 30, 'Male'],  
15.     # ...更多数据
16. 
17. 
18. 将数据写入新的工作表
19. for row in extracted_data:
20.     new_sheet.append(row)
21. 
22.     保存新的Excel文件
23.     new_workbook.save('new_example.xlsx')

在上面的代码中,我们首先创建了一个新的工作簿对象new_workbook,并获取了其活动工作表new_sheet。然后,我们假设已经从原始Excel文件中提取了数据,并将其保存在一个名为extracted_data的列表中。接下来,我们使用append方法将每一行数据依次添加到新的工作表中。最后,通过调用save方法,将新的工作簿保存为一个名为new_example.xlsx的Excel文件。  

 

五、案例与完整代码示例  

 

下面是一个完整的案例,演示了如何使用openpyxl库从Excel文件中提取指定数据并生成新的Excel文件:  

 

假设我们有一个名为original_data.xlsx的Excel文件,其中包含员工的姓名、年龄和性别等信息。我们想要提取年龄大于30岁的员工信息,并将结果保存到一个新的Excel文件filtered_data.xlsx中。

 

首先,我们需要编写代码来提取年龄大于30岁的员工信息:  

 

1. from openpyxl import load_workbook  
2.   
3. # 加载原始Excel文件  
4. workbook = load_workbook('original_data.xlsx')  
5. sheet = workbook['Employee Data']  # 假设工作表名称为"Employee Data"  
6.   
7. # 提取年龄大于30岁的员工信息  
8. filtered_employees = []  
9. for row in sheet.iter_rows(min_row=2, values_only=True):  # 假设第一行是标题行,从第二行开始读取数据  
10.     age = row[1]  # 假设年龄位于第二列  
11.     if age > 30:  
12.         filtered_employees.append(row)  
13.   
14. # 打印提取结果(可选)  
15. for employee in filtered_employees:  
16.     print(employee)

接下来,我们将提取到的员工信息保存到一个新的Excel文件中:

1. from openpyxl import Workbook  
2.   
3. # 创建一个新的工作簿对象  
4. new_workbook = Workbook()  
5. new_sheet = new_workbook.active  
6.   
7. # 将提取到的员工信息写入新的工作表  
8. new_sheet.append(['Name', 'Age', 'Gender'])  # 写入标题行  
9. for employee in filtered_employees:  
10.     new_sheet.append(employee)  
11.   
12. # 保存新的Excel文件  
13. new_workbook.save('filtered_data.xlsx')

将以上两段代码结合起来,我们就可以实现从原始Excel文件中提取指定数据并生成新的Excel文件的功能。

六、总结

本文详细介绍了如何使用openpyxl库从Excel文件中提取指定的数据并生成新的文件。通过案例和代码示例,帮助新手朋友掌握了openpyxl库的基本用法和常见操作。在实际应用中,我们可以根据具体需求调整提取数据的条件和方式,以及生成新文件的格式和内容。

人生苦短,我用python

微信名片

 

显示推荐内容

目录
相关文章
|
3月前
|
Python
如何根据Excel某列数据为依据分成一个新的工作表
在处理Excel数据时,我们常需要根据列值将数据分到不同的工作表或文件中。本文通过Python和VBA两种方法实现该操作:使用Python的`pandas`库按年级拆分为多个文件,再通过VBA宏按班级生成新的工作表,帮助高效整理复杂数据。
|
3月前
|
数据采集 数据可视化 数据挖掘
用 Excel+Power Query 做电商数据分析:从 “每天加班整理数据” 到 “一键生成报表” 的配置教程
在电商运营中,数据是增长的关键驱动力。然而,传统的手工数据处理方式效率低下,耗费大量时间且易出错。本文介绍如何利用 Excel 中的 Power Query 工具,自动化完成电商数据的采集、清洗与分析,大幅提升数据处理效率。通过某美妆电商的实战案例,详细拆解从多平台数据整合到可视化报表生成的全流程,帮助电商从业者摆脱繁琐操作,聚焦业务增长,实现数据驱动的高效运营。
|
5月前
|
存储 安全 大数据
网安工程师必看!AiPy解决fscan扫描数据整理难题—多种信息快速分拣+Excel结构化存储方案
作为一名安全测试工程师,分析fscan扫描结果曾是繁琐的手动活:从海量日志中提取开放端口、漏洞信息和主机数据,耗时又易错。但现在,借助AiPy开发的GUI解析工具,只需喝杯奶茶的时间,即可将[PORT]、[SERVICE]、[VULN]、[HOST]等关键信息智能分类,并生成三份清晰的Excel报表。告别手动整理,大幅提升效率!在安全行业,工具党正碾压手动党。掌握AiPy,把时间留给真正的攻防实战!官网链接:https://www.aipyaipy.com,解锁更多用法!
|
3月前
|
Python
Excel中如何批量重命名工作表与将每个工作表导出到单独Excel文件
本文介绍了如何在Excel中使用VBA批量重命名工作表、根据单元格内容修改颜色,以及将工作表导出为独立文件的方法。同时提供了Python实现导出工作表的代码示例,适用于自动化处理Excel文档。
|
3月前
|
Python
将Excel特定某列数据删除
将Excel特定某列数据删除
|
5月前
|
人工智能 算法 安全
使用CodeBuddy实现批量转换PPT、Excel、Word为PDF文件工具
通过 CodeBuddy 实现本地批量转换工具,让复杂的文档处理需求转化为 “需求描述→代码生成→一键运行” 的极简流程,真正实现 “技术为效率服务” 的目标。感兴趣的快来体验下把
165 10
|
8月前
|
文字识别 Serverless 开发工具
【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名
学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术,可自动提取学生信息并录入Excel,便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤,包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南,帮助用户高效处理PDF文件。 链接: - 百度网盘:[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866) - 腾讯网盘:[链接](https://share.weiyun.com/a77jklXK)
835 5
|
10月前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
1686 10
|
12月前
|
数据采集 存储 JavaScript
自动化数据处理:使用Selenium与Excel打造的数据爬取管道
本文介绍了一种使用Selenium和Excel结合代理IP技术从WIPO品牌数据库(branddb.wipo.int)自动化爬取专利信息的方法。通过Selenium模拟用户操作,处理JavaScript动态加载页面,利用代理IP避免IP封禁,确保数据爬取稳定性和隐私性。爬取的数据将存储在Excel中,便于后续分析。此外,文章还详细介绍了Selenium的基本设置、代理IP配置及使用技巧,并探讨了未来可能采用的更多防反爬策略,以提升爬虫效率和稳定性。
629 4
|
8月前
|
分布式计算 Hadoop 大数据
从Excel到Hadoop:数据规模的进化之路
从Excel到Hadoop:数据规模的进化之路
150 10

热门文章

最新文章