Python3,10行代码,给pdf文件去水印,再也不用花费冤枉钱了。

简介: Python3,10行代码,给pdf文件去水印,再也不用花费冤枉钱了。

1、引言


小屌丝:鱼哥,最近有点不像话了。

小鱼:嗯?? 啥个意思嘛~

小屌丝:一周了,没分享小知识了。

小鱼:就因为这个??

小屌丝:那是,我这么爱学习的人。

小鱼:怕是你有什么事情解决不了,想到我了吧?

小屌丝:呵 ~ 笑话 ~ 我 能有…什…么…事情…

小鱼:说吧,

小屌丝:这可是你让我说的,我可没主动要问的!

小鱼:说吧,咋还磨磨唧唧了呢

小屌丝:我在某站下载的pfd文档,有水印,如何去掉啊?

小鱼:我突然想起来,PPT还没写完。

小屌丝:我家楼下刚开一个烧烤店,据说还不错!

小鱼:PPT写不完,可以晚上写,助人为乐让我更快乐。


2、代码实战


在上一篇博文,我们知道了如何给pdf文档添加水印,

而本篇,我们就给pdf去水印


如果不知道如何添加水印,就看这篇:《Python3,2段代码,给pdf文件添加水印,原来watermark还可以这么玩。》


小屌丝:你这添加完水印,又去除水印,你这是闹哪样??

小鱼:我喜欢,我稀罕,我乐意!!


2.1 去除原理


去除方法:


1、用 PyMuPDF 打开 pdf 文件,将 pdf 的每一页都转换为图片 pixmap,

2、pixmap 有它自己的 RGB,只需要将 pdf 水印中的 RGB 改为(255, 255, 255),并保存图片

3、按照生成的图片,插入到pdf文档中

因为pfd文档无法直接去除水印,需要先将pfd文档转换成图片,在逐一对图片进行水印去除操作,最后在把图片插入到pdf文档中


2.2 代码解析


1、先查看PDF文档中的水印rgb值是多少

image.png

可以看到,RGB(179,179,179),因为这里要的是RGB色值总和,所以我们就认为,超过510,就认为是水印。


敲黑板


光学三原色是红绿蓝(RGB),也就是说它们是不可分解的三种基本颜色,其他颜色都可以通过这三种颜色混合而成,三种颜色等比例混合就是白色,没有光就是黑色。

在计算机中,可以用三个字节表示 RGB 颜色,1个字节能表示的最大数值是 255, 所以,(255, 0, 0)代表红色,(0, 255, 0)代表绿色,(0, 0, 255)代表蓝色。相应地,(255, 255, 255)代表白色,(0, 0, 0)代表黑色。从(0, 0, 0) ~ (255, 255, 255) 之间的任意组合都可以代表一个不同的颜色。

图片每个位置颜色由四元组表示,前三位分别是 RGB,第四位是 Alpha 通道

2、pdf转换成图片,并去除水印

代码示例:


# -*- coding:utf-8 -*-
# @Time   : 2022-02-23
# @Author : carl_DJ
from PIL import Image
from itertools import product
import fitz
''' 图片转为pdf'''
#图片所在的文件夹
pic_dir = 'D:\Project\watemark'
pdf = fitz.open()
#图片数字文件先转换成int类型进行排序
img_files = sorted(os.listdir(pic_dir), key=lambda x: int(str(x).split('.')[0]))
for img in img_files:
    print(img)
    imgdoc = fitz.open(pic_dir + '/' + img)
    #将打开后的图片转成单页pdf
    pdfbytes = imgdoc.convertToPDF()
    imgpdf = fitz.open("pdf", pdfbytes)
    #将单页pdf插入到新的pdf文档中
    pdf.insertPDF(imgpdf)
pdf.save("跟小鱼学习去水印_完成.pdf")
pdf.close()


执行完成,

查看生成图片:

image.png

查看图片内容:

image.png

3、图片转为pdf


代码示例:


# -*- coding:utf-8 -*-
# @Time   : 2022-02-23
# @Author : carl_DJ
from PIL import Image
from itertools import product
import fitz
''' 图片转为pdf'''
#图片所在的文件夹
pic_dir = 'D:\Project\watemark'
pdf = fitz.open()
#图片数字文件先转换成int类型进行排序
img_files = sorted(os.listdir(pic_dir), key=lambda x: int(str(x).split('.')[0]))
for img in img_files:
    print(img)
    imgdoc = fitz.open(pic_dir + '/' + img)
    #将打开后的图片转成单页pdf
    pdfbytes = imgdoc.convertToPDF()
    imgpdf = fitz.open("pdf", pdfbytes)
    #将单页pdf插入到新的pdf文档中
    pdf.insertPDF(imgpdf)
pdf.save("跟小鱼学习去水印_完成.pdf")
pdf.close()


执行代码,

查看生成的pdf文档

image.png


2.3 代码整合


上面的内容都了解以后,我们就整合代码,直接运行就可以了。


# -*- coding:utf-8 -*-
# @Time   : 2022-02-23
# @Author : carl_DJ
from PIL import Image
from itertools import product
import fitz
# 去除pdf的水印
def remove_pdfwatermark():
    #打开源pfd文件
    pdf_file = fitz.open("跟小鱼学习去水印.pdf")
    #page_no 设置为0
    page_no = 0
    #page在pdf文件中遍历
    for page in pdf_file:
        #获取每一页对应的图片pix (pix对象类似于我们上面看到的img对象,可以读取、修改它的 RGB)
        #page.get_pixmap() 这个操作是不可逆的,即能够实现从 PDF 到图片的转换,但修改图片 RGB 后无法应用到 PDF 上,只能输出为图片
        pix = page.get_pixmap()
        #遍历图片中的宽和高,如果像素的rgb值总和大于510,就认为是水印,转换成255,255,255-->即白色
        for pos in product(range(pix.width), range(pix.height)):
            if sum(pix.pixel(pos[0], pos[1])) >= 510:
                pix.set_pixel(pos[0], pos[1], (255, 255, 255))
        #保存去掉水印的截图
        pix.pil_save(f"./{page_no}.png", dpi=(30000, 30000))
        #打印结果
        print(f'第 {page_no} 页去除完成')
        page_no += 1
#去除的pdf水印添加到pdf文件中
def pictopdf():
  #水印截图所在的文件夹
    # pic_dir = input("请输入图片文件夹路径:")
  pic_dir = 'D:\Project\watemark'
  pdf = fitz.open()
  #图片数字文件先转换成int类型进行排序
  img_files = sorted(os.listdir(pic_dir), key=lambda x: int(str(x).split('.')[0]))
  for img in img_files:
     print(img)
     imgdoc = fitz.open(pic_dir + '/' + img)
     #将打开后的图片转成单页pdf
     pdfbytes = imgdoc.convertToPDF()
     imgpdf = fitz.open("pdf", pdfbytes)
     #将单页pdf插入到新的pdf文档中
     pdf.insertPDF(imgpdf)
  pdf.save("跟小鱼学习去水印_完成.pdf")
  pdf.close()
if __name__ == '__main__':
    remove_pdfwatermark()
    pictopdf()


3、总结


写到这里,今天的分享就差不多快结束了。

需要理解的流程是,


pdf文档需要先转换成图片,进行水印去除,

再转换成pdf

最后插入到新的pdf文档中。

关于图片及pdf如何添加水印,可以参照小鱼的这两篇博文:


《Python3,2行代码添加水印》

《Python3,2段代码,给pdf文件添加水印》


目录
相关文章
|
2月前
|
数据可视化 Linux iOS开发
Python脚本转EXE文件实战指南:从原理到操作全解析
本教程详解如何将Python脚本打包为EXE文件,涵盖PyInstaller、auto-py-to-exe和cx_Freeze三种工具,包含实战案例与常见问题解决方案,助你轻松发布独立运行的Python程序。
875 2
|
1月前
|
监控 机器人 编译器
如何将python代码打包成exe文件---PyInstaller打包之神
PyInstaller可将Python程序打包为独立可执行文件,无需用户安装Python环境。它自动分析代码依赖,整合解释器、库及资源,支持一键生成exe,方便分发。使用pip安装后,通过简单命令即可完成打包,适合各类项目部署。
|
4月前
|
C#
【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件,PDF自动提取内容命名的方案和详细步骤
本工具可批量提取PDF中的合同编号、日期、发票号等关键信息,支持PDF自定义区域提取并自动重命名文件,适用于合同管理、发票处理、文档归档和数据录入场景。基于iTextSharp库实现,提供完整代码示例与百度、腾讯网盘下载链接,助力高效处理PDF文档。
615 40
|
3月前
|
缓存 数据可视化 Linux
Python文件/目录比较实战:排除特定类型的实用技巧
本文通过四个实战案例,详解如何使用Python比较目录差异并灵活排除特定文件,涵盖基础比较、大文件处理、跨平台适配与可视化报告生成,助力开发者高效完成目录同步与数据校验任务。
146 0
|
4月前
|
编译器 Python
如何利用Python批量重命名PDF文件
本文介绍了如何使用Python提取PDF内容并用于文件重命名。通过安装Python环境、PyCharm编译器及Jupyter Notebook,结合tabula库实现PDF数据读取与处理,并提供代码示例与参考文献。
|
4月前
|
安全 Linux 网络安全
Python极速搭建局域网文件共享服务器:一行命令实现HTTPS安全传输
本文介绍如何利用Python的http.server模块,通过一行命令快速搭建支持HTTPS的安全文件下载服务器,无需第三方工具,3分钟部署,保障局域网文件共享的隐私与安全。
904 0
|
4月前
|
数据管理 开发工具 索引
在Python中借助Everything工具实现高效文件搜索的方法
使用上述方法,你就能在Python中利用Everything的强大搜索能力实现快速的文件搜索,这对于需要在大量文件中进行快速查找的场景尤其有用。此外,利用Python脚本可以灵活地将这一功能集成到更复杂的应用程序中,增强了自动化处理和数据管理的能力。
317 0
|
存储 安全 网络安全
Python编程--使用PyPDF解析PDF文件中的元数据
Python编程--使用PyPDF解析PDF文件中的元数据
477 1
|
Unix Linux Shell
Sphinx是一个Python文档生成工具,它可以解析reStructuredText或Markdown格式的源代码注释,并生成多种输出格式,如HTML、LaTeX、PDF、ePub等。
Sphinx是一个Python文档生成工具,它可以解析reStructuredText或Markdown格式的源代码注释,并生成多种输出格式,如HTML、LaTeX、PDF、ePub等。
|
存储 对象存储 Python
第107天: Python 解析 PDF
第107天: Python 解析 PDF
1035 0
第107天: Python 解析 PDF

推荐镜像

更多