Linux中如何优雅的批量合并、拆分、加密pdf文件

简介: 在windows中合并个pdf还要让你冲会员,真的是狗。linux下有没有一款工具能完成对pdf的合并、切分的工具呢?

痛点

在windows中合并个pdf还要让你冲会员,真的是狗。linux下有没有一款工具能完成对pdf的合并、切分的工具呢?

有:

PDFtk

功能

     * Merge PDF Documents or Collate PDF Page Scans
       * Split PDF Pages into a New Document
       * Rotate PDF Documents or Pages
       * Decrypt Input as Necessary (Password Required)
       * Encrypt Output as Desired
       * Fill PDF Forms with X/FDF Data and/or Flatten Forms
       * Generate FDF Data Stencils from PDF Forms
       * Apply a Background Watermark or a Foreground Stamp
       * Report PDF Metrics, Bookmarks and Metadata
       * Add/Update PDF Bookmarks or Metadata
       * Attach Files to PDF Pages or the PDF Document
       * Unpack PDF Attachments
       * Burst a PDF Document into Single Pages
       * Uncompress and Re-Compress Page Streams
       * Repair Corrupted PDF (Where Possible)

3db7d592785645dc98fae22ab4d35642.png

安装

OS Version

CentOS Linux release 7.8.2003 (Core)

安装依赖

yum install -y gcc gcc-c++ libXrandr gtk2 libXtst libart_lgpl

安装 pdftk 2.02

yum localinstall https://www.linuxglobal.com/static/blog/pdftk-2.02-1.el7.x86_64.rpm

pdftk 使用

合并pdf

pdftk ./PDF/*.pdf cat output merge.pdf

也支持枚举文件合并

pdftk ./PDF/1.pdf ./PDF/2.pdf cat output merge.pdf

切分pdf

将PDF 拆分成单页并将其数据转储到 doc_data.txt

Splits a single input PDF document into individual pages

pdftk merge.pdf burst

目前没找到按照大小切分的选项,这个选项打散成每页之后再自己按需求merge

压缩pdf

pdftk ./merge.pdf cat output merged-copmress.pdf compress

压缩效果不明显,建议使用convert 、gs

品质和大小的trade-off

Pixelated (lossy):

convert input.pdf -compress Zip output.pdf

Unpixelated (lossless, but may display slightly differently):

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dBATCH  -dQUIET -sOutputFile=output.pdf input.pdf

issue

1、本地执行内存不足warning

GC Warning: Repeated allocation of very large block (appr. size 139264):
        May lead to memory leak and poor performance.

如何将pdftk迁移到其他机器上执行

直接copy二进制文件过去,无法执行

pdftk ./PDF/*.pdf cat output merge.pdf
pdftk: error while loading shared libraries: libgcj.so.10: cannot open shared object file: No such file or directory

如何将该二进制命令所需库文件复制一份?

ldd命令可以完成

ldd /bin/pdftk | egrep -o '/lib.*\.[0-9]'
/lib64/libgcj.so.1
/lib64/libstdc++.so.6
/lib64/libm.so.6
/lib64/libgcc_s.so.1
/lib64/libc.so.6
/lib64/libpthread.so.0
/lib64/librt.so.1
/lib64/libdl.so.2
/lib64/libz.so.1
/lib64/ld-linux-x86-64.so.2

使用如下小脚本将pdftk依赖的so文件copy到性能好一点的机器上去.

list=$(ldd /bin/pdftk | egrep -o '/lib.*\.[0-9]')
for i in $list; do scp -p "$i" ip:/lib64/; done

libgcj.so.10 仍然缺失

发现该文件并没有被copy过来,或许是这个正则写的有点问题。后来发现并不是,因为在/usr目录

解决: 使用find找到然后copy过去。没有外网真的很痛苦。

find /usr -name "libgcj.so*"
/usr/lib64/libgcj.so.10

如何改造这个正则以匹配到

 ⚡ root@localhost  /tmp  ldd /bin/pdftk | egrep -o '*/lib.*\.[0-9]'
/lib64/libgcj.so.1
/lib64/libstdc++.so.6
/lib64/libm.so.6
/lib64/libgcc_s.so.1
/lib64/libc.so.6
/lib64/libpthread.so.0
/lib64/librt.so.1
/lib64/libdl.so.2
/lib64/libz.so.1
/lib64/ld-linux-x86-64.so.2
 ⚡ root@localhost  /tmp  ldd /bin/pdftk | egrep -o '*/lib.*\.[0-9]+'
/lib64/libgcj.so.10
/lib64/libstdc++.so.6
/lib64/libm.so.6
/lib64/libgcc_s.so.1
/lib64/libc.so.6
/lib64/libpthread.so.0
/lib64/librt.so.1
/lib64/libdl.so.2
/lib64/libz.so.1
/lib64/ld-linux-x86-64.so.2

f016d03acd5745229d11c619d32c408c.png

windows GUI的限制

free版本只能合并、拆分

pro版本split, merge, rotate, watermark, stamp and secure PDF pages and documents 。3,99$

5e900f02e2d24c828b3b217fd6ccd546.png

目录
相关文章
|
2月前
|
运维 安全 Linux
Linux中传输文件文件夹的10个scp命令
【10月更文挑战第18天】本文详细介绍了10种利用scp命令在Linux系统中进行文件传输的方法,涵盖基础文件传输、使用密钥认证、复制整个目录、从远程主机复制文件、同时传输多个文件和目录、保持文件权限、跨多台远程主机传输、指定端口及显示传输进度等场景,旨在帮助用户在不同情况下高效安全地完成文件传输任务。
322 5
|
2月前
|
Linux Shell 数据库
Linux文件查找新姿势:总有一种你没见过
【10月更文挑战第18天】文件查找是Linux用户提升工作效率的重要技能。本文介绍了几种实用的文件查找方法,包括基础的`find`命令、快速的`locate`和`mlocate`、高效的`fd`工具、以及结合`grep`和`rg`进行内容搜索。此外,还提供了编写Shell脚本和使用图形界面工具的建议,帮助你更灵活地管理文件。
85 3
|
4天前
|
人工智能 文字识别 数据挖掘
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
MarkItDown 是微软开源的多功能文档转换工具,支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式,具备 OCR 文字识别、语音转文字和元数据提取等功能。
54 9
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
|
8天前
|
Linux Shell 网络安全
Kali Linux系统Metasploit框架利用 HTA 文件进行渗透测试实验
本指南介绍如何利用 HTA 文件和 Metasploit 框架进行渗透测试。通过创建反向 shell、生成 HTA 文件、设置 HTTP 服务器和发送文件,最终实现对目标系统的控制。适用于教育目的,需合法授权。
39 9
Kali Linux系统Metasploit框架利用 HTA 文件进行渗透测试实验
|
7天前
|
JavaScript
jquery图片和pdf文件预览插件
EZView.js是一款jquery图片和pdf文件预览插件。EZView.js可以为图片和pdf格式文件生成在线预览效果。支持的文件格式有pdf、jpg、 png、jpeg、gif。
40 16
|
1月前
|
Linux 开发工具 Perl
在Linux中,有一个文件,如何删除包含“www“字样的字符?
在Linux中,如果你想删除一个文件中包含特定字样(如“www”)的所有字符或行,你可以使用多种文本处理工具来实现。以下是一些常见的方法:
41 5
|
1月前
|
安全 Linux 数据安全/隐私保护
在 Linux 系统中,查找文件所有者是系统管理和安全审计的重要技能。
在 Linux 系统中,查找文件所有者是系统管理和安全审计的重要技能。本文介绍了使用 `ls -l` 和 `stat` 命令查找文件所有者的基本方法,以及通过文件路径、通配符和结合其他命令的高级技巧。还提供了实际案例分析和注意事项,帮助读者更好地掌握这一操作。
49 6
|
1月前
|
Linux
在 Linux 系统中,`find` 命令是一个强大的文件查找工具
在 Linux 系统中,`find` 命令是一个强大的文件查找工具。本文详细介绍了 `find` 命令的基本语法、常用选项和具体应用示例,帮助用户快速掌握如何根据文件名、类型、大小、修改时间等条件查找文件,并展示了如何结合逻辑运算符、正则表达式和排除特定目录等高级用法。
91 6
|
1月前
|
监控 Linux Perl
Linux 命令小技巧:显示文件指定行的内容
在 Linux 系统中,处理文本文件是一项常见任务。本文介绍了如何使用 head、tail、sed 和 awk 等命令快速显示文件中的指定行内容,帮助你高效处理文本文件。通过实际应用场景和案例分析,展示了这些命令在代码审查、日志分析和文本处理中的具体用途。同时,还提供了注意事项和技巧,帮助你更好地掌握这些命令。
66 4
|
2月前
|
安全 Linux 数据安全/隐私保护
python知识点100篇系列(15)-加密python源代码为pyd文件
【10月更文挑战第5天】为了保护Python源码不被查看,可将其编译成二进制文件(Windows下为.pyd,Linux下为.so)。以Python3.8为例,通过Cython工具,先写好Python代码并加入`# cython: language_level=3`指令,安装easycython库后,使用`easycython *.py`命令编译源文件,最终生成.pyd文件供直接导入使用。
python知识点100篇系列(15)-加密python源代码为pyd文件
下一篇
DataWorks