❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
原文链接:https://mp.weixin.qq.com/s/IJoNBHpVIeue4ThHaVoF2Q
🚀 快速阅读
- 功能:将 PDF 文件转换为 Markdown 格式,支持文本和表格的智能提取。
- 技术:基于视觉语言模型和 OCR 技术,结合 NLP 进行语义分析。
- 应用:适用于文档转换、学术研究、法律文件处理等多个场景。
正文(附运行示例)
Vision Parse 是什么
Vision Parse 是一款基于视觉语言模型(Vision LLMs)的开源工具,专门用于将 PDF 文件转换为 Markdown 格式。它能够智能识别和提取 PDF 中的文本和表格,并在转换过程中尽量保持原有的格式和结构。
Vision Parse 支持多种视觉语言模型,如 OpenAI、LLama、Gemini 等,以提高解析的准确性和速度。用户可以通过 Python 环境安装并使用 Vision Parse,实现文档的高效转换。
Vision Parse 的主要功能
- PDF 到 Markdown 转换:将 PDF 文件中的内容转换成 Markdown 格式,便于阅读和进一步编辑。
- 内容提取:智能识别 PDF 中的文本和表格,并能准确提取。
- 格式保持:在转换过程中,尽量保持原始 PDF 文件的格式和结构。
- 多模型支持:支持多种视觉语言模型,如 OpenAI、LLama、Gemini 等,提高解析的准确性和速度。
- 本地模型托管:支持用 Ollama 进行本地模型托管,实现安全的文档处理和离线使用。
Vision Parse 的技术原理
- 视觉语言模型(Vision LLMs):基于视觉语言模型理解 PDF 文件中的文本和图像内容。
- 光学字符识别(OCR):在处理 PDF 文件时,用 OCR 技术将图像中的文字转换为机器可读的文本数据。
- 自然语言处理(NLP):将 OCR 转换的文本基于 NLP 技术进行进一步的处理和分析,来理解和提取文本的语义内容。
如何运行 Vision Parse
安装
首先,确保你的 Python 版本 >= 3.9。然后,使用 pip 安装 Vision Parse:
pip install vision-parse
如果需要使用 OpenAI 或 Gemini 模型,可以安装相应的依赖:
pip install 'vision-parse[openai]'
pip install 'vision-parse[gemini]'
基本使用示例
以下是一个简单的使用示例,展示如何将 PDF 文件转换为 Markdown 格式:
from vision_parse import VisionParser
# 初始化解析器
parser = VisionParser(
model_name="llama3.2-vision:11b", # 对于本地模型,无需提供 API 密钥
temperature=0.4,
top_p=0.3,
extraction_complexity=False # 设置为 True 以进行更详细的提取
)
# 转换 PDF 到 Markdown
pdf_path = "path/to/your/document.pdf"
markdown_pages = parser.convert_pdf(pdf_path)
# 处理结果
for i, page_content in enumerate(markdown_pages):
print(f"\n--- Page {i+1} ---\n{page_content}")
使用 OpenAI 或 Gemini 模型
如果你希望使用 OpenAI 或 Gemini 模型,可以按照以下方式初始化解析器:
from vision_parse import VisionParser
# 使用 OpenAI 模型初始化解析器
parser = VisionParser(
model_name="gpt-4o",
api_key="your-openai-api-key", # 从 https://platform.openai.com/api-keys 获取 OpenAI API 密钥
temperature=0.7,
top_p=0.4,
extraction_complexity=True # 设置为 True 以进行更详细的提取
)
# 使用 Google Gemini 模型初始化解析器
parser = VisionParser(
model_name="gemini-1.5-flash",
api_key="your-gemini-api-key", # 从 https://aistudio.google.com/app/apikey 获取 Gemini API 密钥
temperature=0.7,
top_p=0.4,
extraction_complexity=True # 设置为 True 以进行更详细的提取
)
资源
- GitHub 仓库:https://github.com/iamarunbrahma/vision-parse
- Ollama 设置文档:https://github.com/iamarunbrahma/vision-parse/blob/main/examples/ollama_setup.md
- OpenAI API 密钥获取:https://platform.openai.com/api-keys
- Gemini API 密钥获取:https://aistudio.google.com/app/apikey
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦