AI新宠DocExt:纯本地文档抽取,开源免费还无依赖!你还在为OCR头疼吗?

简介: DocExt 是一款开源、免费的本地文档结构化提取工具,无需依赖 OCR 或云端服务,通过视觉语言模型(VLM)实现票据、护照、发票等多类型文档的关键字段与表格识别。支持多页文档处理、置信度量化及本地部署,提供直观的 Gradio Web 界面和灵活的 API 调用方式,适配高隐私场景如金融、医疗等领域。项目参与 IDP Leaderboard 评测,具备零模板限制和多模型支持等优势,是处理敏感文件的理想选择。

嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法

DocExt 是来自 Nanonets 的开源项目,旨在提供全流程无 OCR、零云依赖的本地文档结构化提取工具。适用于票据、护照、发票等多种文档类型,支持字段与表格识别。

项目介绍

随着 AI 大模型时代的到来,传统 OCR + LLM 的繁琐流程经常需要人工调优、模板设定和外部 API 支持。DocExt(Document Extractor)颠覆这一传统,直接采用视觉语言模型(VLM)实现文档图像的语义理解:

  • 零 OCR:不再依赖 Tesseract / EasyOCR 等引擎,避免 OCR 错误传播;
  • 零云调用:本地部署,完全离线运行,保障数据隐私;
  • 零模板限制:无需手工制定模板,使用预设字段或自定义字段即可工作。

该项目同时也是 Intelligent Document Processing(IDP)排行榜的组成部分,覆盖 KIE、OCR、表格识别、文档分类、VQA、长文档处理等任务。最新之间更新包括对 Gemini、Claude、Qwen 等模型的评估趋势。

核心功能

多文档多页支持

支持 PNG/JPG/PDF 等多格式文档,能一次处理多页文档,全流程 API 内置支持——无需分割文档、合并结果,自动完成。

字段与表格双轨抽取

支持关键信息提取与表格结构识别:适用于发票项目、身份证字段和账单行项目等多种表单类型。

置信度量化

提取结果附带置信度评分,方便用户进行后续校验或合并调度。

本地部署 & HTTP API

支持命令行调用,也可以 RESTful API 形式在 Linux/MacOS 系统中本地部署运行。零外部依赖,适合处理敏感文件。

多模型支持(可选)

支持集成 GPT-4、Gemini、Claude、OpenAI、OpenRouter 等多个 hosted 模型,也可纯本地运行 VLM 模式进行零 OCR 处理。用户可按场景需求自由切换。

Gradio Web 界面

内置简洁界面(Gradio 驱动),支持文件拖拽、字段与表格可视化标注,操作直观友好。

IDP Leaderboard 支持

项目与多个主流公开数据集和模型进行比对,参与 IDP Leaderboard 排行榜中的多项任务评测。

技术架构

使用视觉语言模型实现端到端图像理解,并以模块化方式集成。下表对核心组件做总结:

模块 技术/组件 作用与特点
图像输入 PIL、OpenCV、PDF 解析库 支持图片与 PDF 自动分页加载
VLM 驱动 Qwen-2.5-VL 系列等 提供端到端理解,无 OCR 模块依赖
字段抽取 VLM + 预设/自定义字段模板 自动识别字段标签和内容
表格提取 VLM 结合布局分析 自动还原表格结构(表头/行列)
置信度计算 VLM 内置信度输出 核心数据附带可信度
Web UI Gradio 拖拽上传,自动校验、数据导出
REST 服务 FastAPI 或 Flask(图标建议) 适合集成业务系统
多模型接入 支持 Gemini、Claude 等 hosted 问答 兼容多场景部署

界面展示

项目自带 Gradio demo,本地启动无需繁琐配置。

pip install docext
python -m docext.app.app

启动后打开 Web 页面,可看到以下典型界面模块:

  • 文档上传区域:拖拽或选择 PDF/图片后,自动触发处理,可批量上传;
  • 字段 & 表格识别结果:关键字段高亮展示、表格直观渲染;
  • 导出按钮:一键导出 JSON、CSV、Markdown 等格式,适合各类使用习惯。

使用案例

安装与快速应用

pip install docext

或通过 Docker 运行:

docker pull nanonets/docext:latest
docker run -p 8080:8080 nanonets/docext

命令行示例

docext extract \
 --input ./invoices/ \
 --output ./results/ \
 --output-format json \
 --max_num_imgs 5

支持多页、格式、输出类型定制。

Python API 调用

from docext import extract
# 提取单文档 JSON
:contentReference[oaicite:37]{index=37}
print(result)

集成 hosted 模型示例

export OPENAI_API_KEY=...
pip install openai
# 在启动中指定 hosted 模型
:contentReference[oaicite:38]{index=38}

Web 界面运行

python -m docext.app.app

同类项目

项目名称 GitHub ⭐ OCR 支持 表格抽取 本地部署 无 CAD 模板 Web UI Hosted 模型
DocExt 560 ✔️ ✔️ ✔️ ✔️ ✔️
docTR 4.8k ✔️(OCR) 部分 ✔️ ✔️
agentic-doc 546 ✔️(OCR) ✔️ ❌(云 API) ✔️ ✔️ ✔️(云端)
  • DocTR 倾向传统 OCR 路线,专注文字识别与结构建模;
  • agentic-doc 可批量处理复杂文档,但依赖云端;
  • DocExt 最大优势在于:
  1. 全流程零 OCR,避免识别错误级联;
  2. 支持本地部署,不泄漏敏感数据;
  3. 无模板工作,字段抽取灵活;
  4. 自带 Web UI 及多模型灵活接入;
  5. 支持表格提取与置信度标注。

优缺点总结

✅ 优势

  • 零 OCR、全 VLM:简化流程,减少误差;
  • 本地部署:适配高隐私场景如金融、医疗、政府;
  • 字段+表格全支持:覆盖多数文档场景;
  • 灵活接入 hosted 模型:可用 OpenAI/Gemini 等提升效果;
  • 直观 Web 操控:支持快速校对、标注与导出;
  • 参与 IDP 评测:有公开 Benchmarks 作对比参考。

使用建议

  • 若你追求高度隐私性且具备 GPU 条件,DocExt 是理想选择
  • 若你希望快速迁移传统模板与 OCR 路径,可选 docTR;
  • 对大批量商业云端处理,agentic-doc 更合适;
  • 对无服务器部署,当前还未支持移动端或无 GPU 的全流程。

项目地址

https://github.com/NanoNets/docext

相关文章
|
16天前
|
SQL 人工智能 数据可视化
开源AI BI可视化工具-WrenAI
Wren AI 是一款开源的 SQL AI 代理,支持数据、产品及业务团队通过聊天、直观界面和与 Excel、Google Sheets 的集成获取洞察。它结合大型语言模型(LLM)与检索增强生成(RAG)技术,助力用户高效处理复杂数据分析任务。
|
24天前
|
人工智能 运维 安全
基于合合信息开源智能终端工具—Chaterm的实战指南【当运维遇上AI,一场效率革命正在发生】
在云计算和多平台运维日益复杂的今天,传统命令行工具正面临前所未有的挑战。工程师不仅要记忆成百上千条操作命令,还需在不同平台之间切换终端、脚本、权限和语法,操作效率与安全性常常难以兼顾。尤其在多云环境、远程办公、跨部门协作频繁的背景下,这些“低效、碎片化、易出错”的传统运维方式,已经严重阻碍了 IT 团队的创新能力和响应速度。 而就在这时,一款由合合信息推出的新型智能终端工具——Chaterm,正在悄然颠覆这一现状。它不仅是一款跨平台终端工具,更是业内率先引入 AI Agent 能力 的“会思考”的云资源管理助手。
104 6
|
15天前
|
机器学习/深度学习 人工智能 编解码
智谱AI发布新版VLM开源模型GLM-4.1V-9B-Thinking,引入思考范式,性能提升8倍
视觉语言大模型(VLM)已经成为智能系统的关键基石。
224 0
|
12天前
|
数据采集 人工智能 API
推荐一款Python开源的AI自动化工具:Browser Use
Browser Use 是一款基于 Python 的开源 AI 自动化工具,融合大型语言模型与浏览器自动化技术,支持网页导航、数据抓取、智能决策等操作,适用于测试、爬虫、信息提取等多种场景。
179 2
推荐一款Python开源的AI自动化工具:Browser Use
|
2天前
|
人工智能 自然语言处理 数据安全/隐私保护
企业AI落地开源五剑客:Open-WebUI、Dify、RAGFlow、FastGPT、n8n
在AI技术迅猛发展的今天,企业常面临数据安全、技术门槛和系统整合等难题。本文介绍了五款开源工具——Open WebUI、Dify、RAGFlow、FastGPT和n8n,它们以低成本、私有化部署和模块化扩展的优势,助力企业构建AI能力闭环,覆盖交互、生成、知识处理与流程自动化等多个环节,推动AI真正落地应用。
|
6天前
|
人工智能 文字识别 供应链
高校实验实训课程开发:基于现有的硬件基础和开源能力研发最前沿的AI实验课程
更多基于学校现有硬件基础:企业需求场景的开发和发展,更加注重上层数据和应用,各类工具软件的出现,极大提升了各类硬件的应用价值。我们看到各类硬件厂商,想方设法把硬件卖给学校,但是很多硬件不是在那里尘封,就是寥寥无几的使用场景,我们希望基于学校现有的硬件基础去开发更多面向不同行业或专业的实验实训课程,物尽其用。基于学校现有的硬件,集约开发,极大降低硬件投入成本。
37 7
|
14天前
|
人工智能 数据可视化 API
AI 时代,那些你需要了解的开源项目 (一) |AI应用开发平台篇
本文深入解析了Dify、n8n和Flowise三大AI应用开发平台的功能特点与适用场景。在AI技术日益普及的今天,这些工具让非专业人士也能轻松构建AI应用,助力企业实现智能化转型。并介绍了快速部署的方案
|
16天前
|
人工智能 自然语言处理 数据可视化
开源AI BI可视化工具-dataline
DataLine 是一个开源数据分析工具,支持自然语言交互,可快速生成图表与报告。数据默认存储本地,保障隐私安全,兼容 Postgres、MySQL、Excel 等多种数据源。提供可视化仪表盘、触发器及知识库功能,支持 Windows、Mac、Linux 平台运行,并可通过 Docker 部署,适合企业使用。
|
22天前
|
人工智能 安全 数据安全/隐私保护
|
21天前
|
存储 机器学习/深度学习 人工智能
告别OOM!这款开源神器,如何为你精准预测AI模型显存?
在 AI 开发中,CUDA 显存不足常导致训练失败与资源浪费。Cloud Studio 推荐一款开源工具——AI 显存计算器,可精准预估模型训练与推理所需的显存,支持主流模型结构与优化器,助力开发者高效利用 GPU 资源。项目地址:github.com/st-lzh/vram-wuhrai

热门文章

最新文章