1.6K star!这个开源文本提取神器,5分钟搞定PDF/图片/Office文档!

简介: Kreuzberg 是一个基于 Python 的文本提取库,支持从 PDF、图像、Office 文档等 20+ 格式中提取文本内容。采用 MIT 开源协议,具备本地处理、异步架构、智能 OCR 等特性,特别适合需要隐私保护的文档处理场景。

嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法

Kreuzberg 是一个基于 Python 的文本提取库,支持从 PDF、图像、Office 文档等 20+ 格式中提取文本内容。采用 MIT 开源协议,具备本地处理、异步架构、智能 OCR 等特性,特别适合需要隐私保护的文档处理场景。

一、核心功能亮点

🔍 多格式通吃

支持 PDF(含扫描件)、JPEG/PNG 图片、Word/Excel/PowerPoint、Markdown、EPUB 等常见文档格式

🤖 智能PDF处理

自动识别可搜索PDF与扫描件,智能切换文本提取与OCR模式,内置文本校验防错机制

⚡ 异步高性能

基于 Python async/await 实现,支持批量文件并发处理,充分利用多核CPU性能

📦 轻量级设计

安装包仅 5MB+,无需 GPU 支持,在树莓派等低配设备上也能流畅运行

🌐 多语言OCR

集成 Tesseract 5 引擎,支持中/英/德/法/日等 100+ 语言识别,可配置多语言混合识别

二、技术架构解析

模块 技术选型 功能说明
文档转换 Pandoc 2+ 处理 Office/EPUB/Markdown 等格式
PDF处理 pdfium2 + Tesseract 5 双引擎智能切换处理PDF
异步框架 Python 3.10+ 原生 async/await 支持
图像处理 Pillow 图片预处理与格式转换
依赖管理 UV 快速安装与轻量化依赖管理

三、五大应用场景实战

场景1:企业文档智能解析

from kreuzberg import batch_extract_file_sync

# 批量处理合同文档
results = batch_extract_file_sync([
   "采购合同.pdf",
   "报价单.xlsx",
   "签字扫描件.jpg"
])

for path, (content, _, _) in results.items():
   print(f"【{path}】解析结果:\n{content[:200]}...\n")

场景2:学术论文内容提取

async def extract_research_paper():
   result = await extract_file(
       "论文.pdf",
       language="chi_sim+eng",  # 中英混合识别
       psm=PSMMode.SINGLE_COLUMN  # 适合学术论文版式
   )
   print(f"摘要章节:{result.content.split('摘要')[1][:500]}...")

场景3:法律文书归档系统

def process_legal_docs(docs):
   for doc, mime_type in docs:
       result = await extract_bytes(
           doc,
           mime_type=mime_type,
           force_ocr=True  # 确保扫描件100%识别
       )
       save_to_database(
           content=result.content,
           metadata=result.metadata
       )

场景4:RAG知识库构建

async def build_knowledge_base(files):
   results = await batch_extract_file(files)
   for content, _, meta in results:
       await vector_db.insert({
           "text": content,
           "source": meta.get("title"),
           "author": meta.get("creator")
       })

场景5:跨格式内容搜索

def search_across_formats(keyword):
   results = []
   for file in os.listdir("docs"):
       content, _, _ = extract_file_sync(file)
       if keyword in content:
           results.append(file)
   return results

四、同类项目对比

项目名称 支持格式 OCR能力 异步支持 安装大小 学习曲线
Kreuzberg ★★★★★ ★★★★☆ 5MB 简单
PyPDF2 PDF 1MB 简单
python-docx DOCX 2MB 中等
pytesseract 图片 ★★★★☆ 100MB+ 复杂
pdfplumber PDF 3MB 中等

核心优势对比

  1. 格式通吃:同时处理文档/图片/PDF,无需多个库切换
  2. 智能处理:自动识别文档类型选择最佳解析方式
  3. 生产就绪:完善的错误处理与元数据支持
  4. 隐私安全:全程本地处理不依赖云服务

五、实战技巧分享

技巧1:提升OCR识别精度

# 配置德语+英语识别,使用单列版面分析
await extract_file(
   "german_doc.jpg",
   language="deu+eng",
   psm=PSMMode.SINGLE_COLUMN,
   ocr_config={"tessedit_pageseg_mode": 6}
)

技巧2:处理加密PDF

from kruetzberg import extract_file, ParsingError

try:
   result = await extract_file(
       "encrypted.pdf",
       pdf_options={"password": "123456"}
   )
except ParsingError as e:
   print("密码错误或文件损坏!")

技巧3:保留文档格式

# 提取带Markdown格式的内容
result = await extract_file(
   "report.docx",
   pandoc_options={"output_format": "markdown"}
)
print(result.content)  # 输出带Markdown标记的文本

六、项目部署方案

个人使用方案

# 1. 安装库
pip install kreuzberg

# 2. 安装依赖(Ubuntu示例)
sudo apt-get install pandoc tesseract-ocr tesseract-ocr-chi-sim

# 3. 中文识别测试
echo "测试文本" > test.txt
python -c "from kruetzberg import extract_file_sync; print(extract_file_sync('test.txt').content)"

Docker生产部署

FROM python:3.10-slim

RUN apt-get update && \
   apt-get install -y pandoc tesseract-ocr tesseract-ocr-chi-sim && \
   rm -rf /var/lib/apt/lists/*


COPY requirements.txt .
RUN pip install -r requirements.txt

CMD ["python", "app.py"]

七、生态整合推荐

  • 知识库系统:与 LangChain 结合构建智能文档处理流水线
  • 网盘系统:集成到 Nextcloud 实现自动文档内容索引
  • OA系统:对接钉钉/企业微信实现移动端文档解析
  • RAG应用:与 DeepSeek-R1 等大模型结合实现智能问答

八、总结展望

Kreuzberg 作为新一代文档处理工具,在以下场景具有独特优势:

  • 需要本地化部署的隐私敏感场景
  • 混合格式文档处理需求
  • 高并发文档处理任务
  • 资源受限的边缘计算环境

随着 2025 年多模态AI的爆发式增长,此类高效文本提取工具将成为智能办公的基础设施。

九、项目地址

https://github.com/Goldziher/kreuzberg

相关文章
|
17天前
|
人工智能 自然语言处理 算法
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。
437 11
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
|
16天前
|
文字识别 BI
【工具教程】批量PDF和图片OCR识别指定区域文字自动改图片名字,多个区域一次性批量识别改名批量重命名
本内容介绍了一款用于企业档案、医院病历及办公文件管理的图片和PDF文字识别工具。通过框选识别区域,软件可批量提取关键信息,实现文件重命名或导出为表格,极大提升管理效率。支持图片与PDF两种模式,操作简单,适用于合同、病历、报告等场景。提供详细步骤指导,包含区域设置、文件导入、批量处理及结果校验等功能。
100 8
|
18天前
|
程序员 开发者
开源项目:一行代码,批量 PDF 转 Word 轻松搞定!
程序员晚枫分享了 `popdf` 的新功能:支持批量 PDF 转 Word!只需简单代码,即可轻松实现单文件或批量转换。`input_path` 和 `output_path` 参数让操作更便捷,适合处理大量 PDF 文件。作为开发者,晚枫致力于解决技术小痛点,欢迎体验并反馈。项目地址:[https://github.com/CoderWanFeng/popdf](https://github.com/CoderWanFeng/popdf)
DeepSeek + Xmind,1分钟自动把pdf/word文档转成思维导图
DeepSeek与Xmind结合,1分钟将PDF、Word文档转换为思维导图。只需四步:上传文档至DeepSeek,请求转换为Markdown格式,保存文件并修改后缀为.md,最后导入Xmind生成思维导图。轻松驾驭复杂文档,适用于学习笔记、工作报告、项目规划等场景,大幅提升效率!
|
1月前
|
文字识别 BI API
3.4K star!全能PDF处理神器开源!文档转换/OCR识别一键搞定
PDF-Guru 是一款开箱即用的全能型PDF处理工具,支持跨平台文档转换、智能OCR识别、多格式解析等核心功能。项目采用模块化架构设计,提供简洁的Web界面和API接口,开发者可快速集成到现有系统中。
|
1月前
|
文字识别 UED Python
对双栏 | 单双栏混合 | 图表文字混合的复杂布局的图片OCR识别(对布局复杂的整个pdf进行OCR识别)
这个故事告诉我们要多尝试不同的库和引擎,尤其是需求比较偏门或者少见的时候。同一个方向不同的库所擅长的领域是不一样的。 博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
|
2月前
|
人工智能 编解码 文字识别
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
OCRmyPDF 是一款开源命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。
446 17
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
|
2月前
|
文字识别 Serverless 开发工具
【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名
学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术,可自动提取学生信息并录入Excel,便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤,包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南,帮助用户高效处理PDF文件。 链接: - 百度网盘:[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866) - 腾讯网盘:[链接](https://share.weiyun.com/a77jklXK)
193 5
|
2月前
|
文字识别 BI
【图片型PDF】批量识别扫描件PDF指定区域局部位置内容,将识别内容导出Excel表格或批量改名文件,基于阿里云OCR对图片型PDF识别改名案例实现
在医疗和政务等领域,图片型PDF文件(如病历、报告、公文扫描件)的处理需求广泛。通过OCR技术识别这些文件中的文字信息,提取关键内容并保存为表格,极大提高了信息管理和利用效率。本文介绍一款工具——咕嘎批量OCR系统,帮助用户快速处理图片型PDF文件,支持区域识别、内容提取、导出表格及批量改名等功能。下载工具后,按步骤选择处理模式、进行区域采样、批量处理文件,几分钟内即可高效完成数百个文件的处理。
252 8
|
3月前
|
机器学习/深度学习 人工智能 文字识别
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。
307 4
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式

热门文章

最新文章