Vision Parse：开源的 PDF 转 Markdown 工具，结合视觉语言模型和 OCR，识别文本和表格并保持原格式

2025-01-01 2298

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Vision Parse 是一款开源的 PDF 转 Markdown 工具，基于视觉语言模型，能够智能识别和提取 PDF 中的文本和表格，并保持原有格式和结构。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

原文链接：https://mp.weixin.qq.com/s/IJoNBHpVIeue4ThHaVoF2Q

🚀 快速阅读

功能：将 PDF 文件转换为 Markdown 格式，支持文本和表格的智能提取。
技术：基于视觉语言模型和 OCR 技术，结合 NLP 进行语义分析。
应用：适用于文档转换、学术研究、法律文件处理等多个场景。

正文（附运行示例）

Vision Parse 是什么

公众号: 蚝油菜花 - vision-parse

Vision Parse 是一款基于视觉语言模型（Vision LLMs）的开源工具，专门用于将 PDF 文件转换为 Markdown 格式。它能够智能识别和提取 PDF 中的文本和表格，并在转换过程中尽量保持原有的格式和结构。

Vision Parse 支持多种视觉语言模型，如 OpenAI、LLama、Gemini 等，以提高解析的准确性和速度。用户可以通过 Python 环境安装并使用 Vision Parse，实现文档的高效转换。

Vision Parse 的主要功能

PDF 到 Markdown 转换：将 PDF 文件中的内容转换成 Markdown 格式，便于阅读和进一步编辑。
内容提取：智能识别 PDF 中的文本和表格，并能准确提取。
格式保持：在转换过程中，尽量保持原始 PDF 文件的格式和结构。
多模型支持：支持多种视觉语言模型，如 OpenAI、LLama、Gemini 等，提高解析的准确性和速度。
本地模型托管：支持用 Ollama 进行本地模型托管，实现安全的文档处理和离线使用。

Vision Parse 的技术原理

视觉语言模型（Vision LLMs）：基于视觉语言模型理解 PDF 文件中的文本和图像内容。
光学字符识别（OCR）：在处理 PDF 文件时，用 OCR 技术将图像中的文字转换为机器可读的文本数据。
自然语言处理（NLP）：将 OCR 转换的文本基于 NLP 技术进行进一步的处理和分析，来理解和提取文本的语义内容。

如何运行 Vision Parse

安装

首先，确保你的 Python 版本 >= 3.9。然后，使用 pip 安装 Vision Parse：

pip install vision-parse

如果需要使用 OpenAI 或 Gemini 模型，可以安装相应的依赖：

pip install 'vision-parse[openai]'
pip install 'vision-parse[gemini]'

基本使用示例

以下是一个简单的使用示例，展示如何将 PDF 文件转换为 Markdown 格式：

from vision_parse import VisionParser

# 初始化解析器
parser = VisionParser(
    model_name="llama3.2-vision:11b", # 对于本地模型，无需提供 API 密钥
    temperature=0.4,
    top_p=0.3,
    extraction_complexity=False # 设置为 True 以进行更详细的提取
)

# 转换 PDF 到 Markdown
pdf_path = "path/to/your/document.pdf"
markdown_pages = parser.convert_pdf(pdf_path)

# 处理结果
for i, page_content in enumerate(markdown_pages):
    print(f"\n--- Page {i+1} ---\n{page_content}")

使用 OpenAI 或 Gemini 模型

如果你希望使用 OpenAI 或 Gemini 模型，可以按照以下方式初始化解析器：

from vision_parse import VisionParser

# 使用 OpenAI 模型初始化解析器
parser = VisionParser(
    model_name="gpt-4o",
    api_key="your-openai-api-key", # 从 https://platform.openai.com/api-keys 获取 OpenAI API 密钥
    temperature=0.7,
    top_p=0.4,
    extraction_complexity=True # 设置为 True 以进行更详细的提取
)

# 使用 Google Gemini 模型初始化解析器
parser = VisionParser(
    model_name="gemini-1.5-flash",
    api_key="your-gemini-api-key", # 从 https://aistudio.google.com/app/apikey 获取 Gemini API 密钥
    temperature=0.7,
    top_p=0.4,
    extraction_complexity=True # 设置为 True 以进行更详细的提取
)

资源

GitHub 仓库：https://github.com/iamarunbrahma/vision-parse
Ollama 设置文档：https://github.com/iamarunbrahma/vision-parse/blob/main/examples/ollama_setup.md
OpenAI API 密钥获取：https://platform.openai.com/api-keys
Gemini API 密钥获取：https://aistudio.google.com/app/apikey