AI新宠DocExt:纯本地文档抽取,开源免费还无依赖!你还在为OCR头疼吗?

简介: DocExt 是一款开源、免费的本地文档结构化提取工具,无需依赖 OCR 或云端服务,通过视觉语言模型(VLM)实现票据、护照、发票等多类型文档的关键字段与表格识别。支持多页文档处理、置信度量化及本地部署,提供直观的 Gradio Web 界面和灵活的 API 调用方式,适配高隐私场景如金融、医疗等领域。项目参与 IDP Leaderboard 评测,具备零模板限制和多模型支持等优势,是处理敏感文件的理想选择。

嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法

DocExt 是来自 Nanonets 的开源项目,旨在提供全流程无 OCR、零云依赖的本地文档结构化提取工具。适用于票据、护照、发票等多种文档类型,支持字段与表格识别。

项目介绍

随着 AI 大模型时代的到来,传统 OCR + LLM 的繁琐流程经常需要人工调优、模板设定和外部 API 支持。DocExt(Document Extractor)颠覆这一传统,直接采用视觉语言模型(VLM)实现文档图像的语义理解:

  • 零 OCR:不再依赖 Tesseract / EasyOCR 等引擎,避免 OCR 错误传播;
  • 零云调用:本地部署,完全离线运行,保障数据隐私;
  • 零模板限制:无需手工制定模板,使用预设字段或自定义字段即可工作。

该项目同时也是 Intelligent Document Processing(IDP)排行榜的组成部分,覆盖 KIE、OCR、表格识别、文档分类、VQA、长文档处理等任务。最新之间更新包括对 Gemini、Claude、Qwen 等模型的评估趋势。

核心功能

多文档多页支持

支持 PNG/JPG/PDF 等多格式文档,能一次处理多页文档,全流程 API 内置支持——无需分割文档、合并结果,自动完成。

字段与表格双轨抽取

支持关键信息提取与表格结构识别:适用于发票项目、身份证字段和账单行项目等多种表单类型。

置信度量化

提取结果附带置信度评分,方便用户进行后续校验或合并调度。

本地部署 & HTTP API

支持命令行调用,也可以 RESTful API 形式在 Linux/MacOS 系统中本地部署运行。零外部依赖,适合处理敏感文件。

多模型支持(可选)

支持集成 GPT-4、Gemini、Claude、OpenAI、OpenRouter 等多个 hosted 模型,也可纯本地运行 VLM 模式进行零 OCR 处理。用户可按场景需求自由切换。

Gradio Web 界面

内置简洁界面(Gradio 驱动),支持文件拖拽、字段与表格可视化标注,操作直观友好。

IDP Leaderboard 支持

项目与多个主流公开数据集和模型进行比对,参与 IDP Leaderboard 排行榜中的多项任务评测。

技术架构

使用视觉语言模型实现端到端图像理解,并以模块化方式集成。下表对核心组件做总结:

模块 技术/组件 作用与特点
图像输入 PIL、OpenCV、PDF 解析库 支持图片与 PDF 自动分页加载
VLM 驱动 Qwen-2.5-VL 系列等 提供端到端理解,无 OCR 模块依赖
字段抽取 VLM + 预设/自定义字段模板 自动识别字段标签和内容
表格提取 VLM 结合布局分析 自动还原表格结构(表头/行列)
置信度计算 VLM 内置信度输出 核心数据附带可信度
Web UI Gradio 拖拽上传,自动校验、数据导出
REST 服务 FastAPI 或 Flask(图标建议) 适合集成业务系统
多模型接入 支持 Gemini、Claude 等 hosted 问答 兼容多场景部署

界面展示

项目自带 Gradio demo,本地启动无需繁琐配置。

pip install docext
python -m docext.app.app

启动后打开 Web 页面,可看到以下典型界面模块:

  • 文档上传区域:拖拽或选择 PDF/图片后,自动触发处理,可批量上传;
  • 字段 & 表格识别结果:关键字段高亮展示、表格直观渲染;
  • 导出按钮:一键导出 JSON、CSV、Markdown 等格式,适合各类使用习惯。

使用案例

安装与快速应用

pip install docext

或通过 Docker 运行:

docker pull nanonets/docext:latest
docker run -p 8080:8080 nanonets/docext

命令行示例

docext extract \
 --input ./invoices/ \
 --output ./results/ \
 --output-format json \
 --max_num_imgs 5

支持多页、格式、输出类型定制。

Python API 调用

from docext import extract
# 提取单文档 JSON
:contentReference[oaicite:37]{index=37}
print(result)

集成 hosted 模型示例

export OPENAI_API_KEY=...
pip install openai
# 在启动中指定 hosted 模型
:contentReference[oaicite:38]{index=38}

Web 界面运行

python -m docext.app.app

同类项目

项目名称 GitHub ⭐ OCR 支持 表格抽取 本地部署 无 CAD 模板 Web UI Hosted 模型
DocExt 560 ✔️ ✔️ ✔️ ✔️ ✔️
docTR 4.8k ✔️(OCR) 部分 ✔️ ✔️
agentic-doc 546 ✔️(OCR) ✔️ ❌(云 API) ✔️ ✔️ ✔️(云端)
  • DocTR 倾向传统 OCR 路线,专注文字识别与结构建模;
  • agentic-doc 可批量处理复杂文档,但依赖云端;
  • DocExt 最大优势在于:
  1. 全流程零 OCR,避免识别错误级联;
  2. 支持本地部署,不泄漏敏感数据;
  3. 无模板工作,字段抽取灵活;
  4. 自带 Web UI 及多模型灵活接入;
  5. 支持表格提取与置信度标注。

优缺点总结

✅ 优势

  • 零 OCR、全 VLM:简化流程,减少误差;
  • 本地部署:适配高隐私场景如金融、医疗、政府;
  • 字段+表格全支持:覆盖多数文档场景;
  • 灵活接入 hosted 模型:可用 OpenAI/Gemini 等提升效果;
  • 直观 Web 操控:支持快速校对、标注与导出;
  • 参与 IDP 评测:有公开 Benchmarks 作对比参考。

使用建议

  • 若你追求高度隐私性且具备 GPU 条件,DocExt 是理想选择
  • 若你希望快速迁移传统模板与 OCR 路径,可选 docTR;
  • 对大批量商业云端处理,agentic-doc 更合适;
  • 对无服务器部署,当前还未支持移动端或无 GPU 的全流程。

项目地址

https://github.com/NanoNets/docext

相关文章
|
1月前
|
人工智能 安全 API
HiMarket 正式开源,为企业落地开箱即用的 AI 开放平台
我们发起 HiMarket 的初心:帮助用户从 80% 开始构建 AI 开放平台。
176 23
|
25天前
|
人工智能 自然语言处理 搜索推荐
AI营销新宠助力企业突围
AI浪潮下,企业如何借力新技术突围?OpenAI与立讯合作预示消费级AI设备爆发,AIGEO市场规模2024年将超180亿元。AI语义预检内容提升曝光效率,精准触达用户。63%网民用AI获取信息,AI搜索流量占比达42%。政策支持叠加技术进步,内容营销迎来智能变革。企业需重构策略,把握AI红利。欢迎交流咨询,共探增长新路径。
|
28天前
|
人工智能 运维 安全
|
2月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
238 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
1月前
|
人工智能 云栖大会
|
人工智能 关系型数据库 MySQL
AI战略丨开源开放,构建 AI 时代的创新引擎
技术开源和产业开放彼此衔接、相互支撑,构建全产业链合作模式和无边界产业生态圈,日益成为数字时代全球分工体系的主流模式。

热门文章

最新文章

下一篇
oss教程