Python办公自动化之Excel转Word

简介: Python办公自动化之Excel转Word

在日常工作中,Python在办公自动化领域应用非常广泛,如批量将多个Excel中的数据进行计算并生成图表,批量将多个Excel按固定格式转换成Word,或者定时生成文件并发送邮件等场景。本文主要以一个简单的小例子,简述Python在Excel和Word方面进行相互转换的相关知识点,谨供学习分享使用,如有不足之处,还请指正。

相关知识点

本文主要是将Excel文件通过一定规则转换成Word文档,涉及知识点如下所示:

  • xlrd模块:主要用于Excel文件的读取,相关内容如下:
  • xlrd.open_workbook(self.excel_file) 打开Excel文件并返回文档对象,参数为Excel的完整路径
  • book.sheet_by_name(self.sheet_name) 通过名称获取对应的sheet页,并返回sheet对象
  • sheet.nrows sheet页的有效行数
  • sheet.ncols sheet页的有效列数
  • sheet.row_values(0) 返回Excel中对应sheet页的第一行的值,以数组返回
  • sheet.cell_value(row, col) 返回某一个单元格的值
  • python-docx模块:主要操作Word文档,如:表格,段落等相关,相关内容如下所示:
  • Document word的文档对象,代表整个word文档
  • doc.sections[0] 获取章节
  • doc.add_section(start_type=WD_SECTION_START.CONTINUOUS) 添加连续章节
  • doc.add_heading(third, level=2) 增加标题,level表示级别,如二级标题,返回标题对象
  • doc.add_paragraph(text='', style=None) 增加段落,返回段落对象
  • doc.add_table(rows=4, cols=5) 增加表格,并返回表格对象
  • doc_table.style = "Table Grid" 设置表格样式
  • doc_table.rows[0].cells[1].merge(doc_table.rows[0].cells[4]) 合并单元格
  • doc_table.rows[3].cells 获取表格某一行所有单元格,以数组形式返回
  • head_cells[0].width = Cm(1.9) 设置列宽,单位cm
  • doc_table.rows[i].cells[j].vertical_alignment = WD_CELL_VERTICAL_ALIGNMENT.CENTER 表格内容垂直居中
  • doc_table.add_row() 新增行,并返回行对象

插件安装

插件可以在pycharm的terminal面板下进行安装。python-docx安装命令为:pip install python-docx

xlrd安装命令为:pip install xlrd  如下所示:

数据源文件

数据源是一系列格式相同的Excel文件,共七列,其中第1列要按【/】进行截取拆分,格式如下:

核心代码

本文核心源码,主要分三部分:

导入相关模块包,如下所示:

import xlrd
from docx import Document
from docx.enum.section import WD_ORIENTATION
from docx.enum.text import WD_PARAGRAPH_ALIGNMENT
from docx.shared import Pt, Cm, RGBColor
from docx.oxml.ns import qn
from docx.enum.table import WD_CELL_VERTICAL_ALIGNMENT

读取Excel,如下所示:

def read_excel(self):
        """读取Excel"""
        book = xlrd.open_workbook(self.excel_file)
        sheet = book.sheet_by_name(self.sheet_name)
        nrows = sheet.nrows  # 行数
        ncols = sheet.ncols  # 列数
        datas = []  # 存放数据
        # 第一列 标题
        keys = sheet.row_values(0)
        for row in range(1, nrows):
            data = {}  # 每一行数据
            for col in range(0, ncols):
                value = sheet.cell_value(row, col)  # 取出每一个单元格的数据
                # 替换到特殊字符
                value = value.replace('<', '').replace('>', '').replace('$', '')
                data[keys[col]] = value
                # 截取第一列元素
                if col == 0:
                    first = ''  # 截取元素 第1
                    second = ''  # 截取元素 第2
                    third = ''  # 截取元素 第3
                    arrs = value.lstrip('/').split('/')  # 去掉第一个/ 然后再以/分组
                    if len(arrs) > 0:
                        if len(arrs) == 1:
                            first = arrs[0]
                            second = first
                            third = second
                        elif len(arrs) == 2:
                            first = arrs[0]
                            second = arrs[1]
                            third = second
                        elif len(arrs) == 3:
                            first = arrs[0]
                            second = arrs[1]
                            third = arrs[2]
                        else:
                            first = arrs[0]
                            second = arrs[1]
                            third = arrs[2]
                    else:
                        first = value.ltrip('/')
                        second = first
                        third = second
                    data['first'] = first
                    data['second'] = second
                    data['third'] = third
                # 截取第一列结束
            datas.append(data)
        return datas

生成Word部分:

def write_word(self, datas):
        """生成word文件"""
        if len(datas) < 1:
            print('Excel没有内容')
            return
        # 定义word文档对象
        doc = Document()
        # 添加横向
        section = doc.sections[0]  # doc.add_section(start_type=WD_SECTION_START.CONTINUOUS)  # 添加横向页的连续节
        section.orientation = WD_ORIENTATION.LANDSCAPE
        page_h, page_w = section.page_width, section.page_height
        section.page_width = page_w  # 设置横向纸的宽度
        section.page_height = page_h  # 设置横向纸的高度
        # 设置字体
        doc.styles['Normal'].font.name = u'宋体'
        doc.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), u'宋体')
        # 获取第3部分(部门) 并去重
        data_third = []
        for data in datas:
            third = data['third']
            if data_third.count(third) == 0:
                data_third.append(third)
        for third in data_third:
            h2 = doc.add_heading(third, level=2)  # 写入部门,二级标题
            run = h2.runs[0]  # 可以通过add_run来设置文字,也可以通过数组来获取
            run.font.color.rgb = RGBColor(0, 0, 0)
            run.font.name = u'宋体'
            doc.add_paragraph(text='', style=None)  # 增加空白行 换行
            # 开始获取模板
            data_template = []
            for data in datas:
                if data['third'] == third:
                    template = {'first': data['first'], '模板名称': data['模板名称']}
                    if data_template.count(template) == 0:
                        data_template.append(template)
            # 获取模板完成
            # 遍历模板
            for template in data_template:
                h3 = doc.add_heading(template['模板名称'], level=3)  # 插入模板名称,三级标题
                run = h3.runs[0]  # 可以通过add_run来设置文字,也可以通过数组来获取
                run.font.color.rgb = RGBColor(0, 0, 0)
                run.font.name = u'宋体'
                doc.add_paragraph(text='', style=None)  # 换行
                data_table = filter(
                    lambda data: data['third'] == third and data['模板名称'] == template['模板名称'] and data['first'] ==
                                 template['first'], datas)
                data_table = list(data_table)
                # 新增表格 4行5列
                doc_table = doc.add_table(rows=4, cols=5)
                doc_table.style = "Table Grid"
                doc_table.style.font.size = Pt(9)
                doc_table.style.font.name = '宋体'
                # 合并单元格 赋值
                doc_table.rows[0].cells[1].merge(doc_table.rows[0].cells[4])
                doc_table.rows[1].cells[1].merge(doc_table.rows[1].cells[4])
                doc_table.rows[2].cells[1].merge(doc_table.rows[2].cells[4])
                doc_table.rows[0].cells[0].text = '流程名称:'
                doc_table.rows[0].cells[1].text = data_table[0]['模板名称']
                doc_table.rows[1].cells[0].text = '使用人:'
                doc_table.rows[1].cells[1].text = data_table[0]['first']
                doc_table.rows[2].cells[0].text = '流程说明:'
                doc_table.rows[2].cells[1].text = data_table[0]['流程说明']
                # 设置标题
                head_cells = doc_table.rows[3].cells  # 前面还有三行,特殊处理
                head_cells[0].text = '节点'
                head_cells[1].text = '节点名'
                head_cells[2].text = '处理人员'
                head_cells[3].text = '处理方式'
                head_cells[4].text = '跳转信息'
                # 设置列宽
                head_cells[0].width = Cm(1.9)
                head_cells[1].width = Cm(4.83)
                head_cells[2].width = Cm(8.25)
                head_cells[3].width = Cm(2.54)
                head_cells[4].width = Cm(5.64)
                # 第1 列水平居中,并设置行高,所有单元格内容垂直居中
                for i in range(0, 4):
                    # 水平居中
                    p = doc_table.rows[i].cells[0].paragraphs[0]
                    p.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER
                    doc_table.rows[i].height = Cm(0.6)  # 行高
                    # 垂直居中
                    for j in range(0, 5):
                        doc_table.rows[i].cells[j].vertical_alignment = WD_CELL_VERTICAL_ALIGNMENT.CENTER
                # 生成表格并填充内容
                row_num = 0
                for data in data_table:
                    row = doc_table.add_row()
                    row_cells = row.cells
                    row_cells[0].text = str(row_num + 1) # 序号,需要转换成字符串
                    row_cells[1].text = data['节点名称']
                    row_cells[2].text = data['审批人员']
                    row_cells[3].text = data['审批方式']
                    row_cells[4].text = ''
                    # 水平居中
                    p = row_cells[0].paragraphs[0]
                    p.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER
                    row.height = Cm(0.6)  # 行高
                    # 垂直居中
                    for j in range(0, 5):
                        row_cells[j].vertical_alignment = WD_CELL_VERTICAL_ALIGNMENT.CENTER
                    row_num = row_num + 1
                doc.add_paragraph(text='', style=None)  # 换行
        doc.save(self.word_file)

备注

子曰:“不患无位,患所以立。不患莫己知,求为可知也。

相关文章
|
20天前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
|
1月前
|
Java API Apache
Java编程如何读取Word文档里的Excel表格,并在保存文本内容时保留表格的样式?
【10月更文挑战第29天】Java编程如何读取Word文档里的Excel表格,并在保存文本内容时保留表格的样式?
133 5
|
1月前
|
Java 测试技术 持续交付
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
本文重点讲解如何搭建App自动化测试框架的思路,而非完整源码。主要内容包括实现目的、框架设计、环境依赖和框架的主要组成部分。适用于初学者,旨在帮助其快速掌握App自动化测试的基本技能。文中详细介绍了从需求分析到技术栈选择,再到具体模块的封装与实现,包括登录、截图、日志、测试报告和邮件服务等。同时提供了运行效果的展示,便于理解和实践。
96 4
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
|
17天前
|
机器学习/深度学习 前端开发 数据处理
利用Python将Excel快速转换成HTML
本文介绍如何使用Python将Excel文件快速转换成HTML格式,以便在网页上展示或进行进一步的数据处理。通过pandas库,你可以轻松读取Excel文件并将其转换为HTML表格,最后保存为HTML文件。文中提供了详细的代码示例和注意事项,帮助你顺利完成这一任务。
28 0
|
2月前
|
数据处理 Python
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
这篇文章介绍了如何使用Python读取Excel文件中的数据,处理后将其保存为txt、xlsx和csv格式的文件。
87 3
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
|
2月前
|
Python
python读写操作excel日志
主要是读写操作,创建表格
68 2
|
2月前
|
人工智能 开发者 Python
python读取word文档 | AI应用开发
在RAG系统中,构建知识库时需读取多种外部文档,其中Word文档较为常见。本文介绍如何使用`python-docx`库读取Word文档(.docx格式)中的标题、段落、表格和图片等内容。首先通过`pip install python-docx`安装库,然后利用提供的接口提取所需信息。尽管该库功能强大,但在识别标题样式时需自定义逻辑,并且仅提供图片的URI而非直接加载。示例代码展示了读取文本、识别标题、读取表格及获取图片URI的方法。【10月更文挑战第2天】
100 2
|
2月前
|
索引 Python
Excel学习笔记(一):python读写excel,并完成计算平均成绩、成绩等级划分、每个同学分数大于70的次数、找最优成绩
这篇文章是关于如何使用Python读取Excel文件中的学生成绩数据,并进行计算平均成绩、成绩等级划分、统计分数大于70的次数以及找出最优成绩等操作的教程。
98 0
|
2月前
|
存储 Python
Python实战项目Excel拆分与合并——合并篇
Python实战项目Excel拆分与合并——合并篇
68 0
|
2月前
|
数据采集 存储 JavaScript
自动化数据处理:使用Selenium与Excel打造的数据爬取管道
本文介绍了一种使用Selenium和Excel结合代理IP技术从WIPO品牌数据库(branddb.wipo.int)自动化爬取专利信息的方法。通过Selenium模拟用户操作,处理JavaScript动态加载页面,利用代理IP避免IP封禁,确保数据爬取稳定性和隐私性。爬取的数据将存储在Excel中,便于后续分析。此外,文章还详细介绍了Selenium的基本设置、代理IP配置及使用技巧,并探讨了未来可能采用的更多防反爬策略,以提升爬虫效率和稳定性。
147 4

热门文章

最新文章