模型训练数据-MinerU一款Pdf转Markdown软件

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: MinerU是由上海人工智能实验室OpenDataLab团队开发的开源智能数据提取工具,专长于复杂PDF文档的高效解析与提取。它能够将含有图片、公式、表格等多模态内容的PDF文档转化为Markdown格式,同时支持从网页和电子书中提取内容,显著提升了AI语料准备的效率。MinerU具备高精度的PDF模型解析工具链,能自动识别乱码,保留文档结构,并将公式转换为LaTeX格式,广泛适用于学术、财务、法律等领域。

视频说明:https://www.bilibili.com/video/BV1ZMqVYvERW/

简介:

MinerU是什么

MinerU是上海人工智能实验室OpenDataLab团队推出的开源智能数据提取工具,专注于复杂PDF文档的高效解析与提取。MinerU能将包含图片、公式、表格等元素的多模态PDF文档转化为易于分析的Markdown格式,支持从网页和电子书中提取内容,提高AI语料准备效率。MinerU具备高精度的PDF模型解析工具链,支持多种输入模型,自动识别乱码,保留文档结构,转换公式为LaTex,适用于学术、财务、法律等多个领域,支持CPU和GPU,兼容Windows/Linux/Mac平台,性能卓越。

https://opendatalab.com/OpenSourceTools/Extractor/PDF

MinerU的主要功能

  • PDF到Markdown转换:将包含多种内容类型的PDF文档转换为结构化的Markdown格式,便于进一步的编辑和分析。
  • 多模态内容处理:能识别和处理PDF中的图像、公式、表格和文本等多种内容。
  • 结构和格式保留:在转换过程中,保留原始文档的结构和格式,如标题、段落和列表。
  • 公式识别与转换:特别针对数学公式,能识别并转换成LaTeX格式,方便学术交流和技术文档使用。
  • 干扰元素去除:自动删除页眉、页脚、脚注和页码等非内容元素,净化文档信息。
  • 乱码识别与处理:自动识别并纠正PDF文档中的乱码,提高信息提取的准确性。
  • 高质量解析工具链:集成了先进的PDF解析工具,包括布局检测、公式检测和光学字符识别(OCR),确保提取结果的高准确度。

MinerU的技术原理

  • PDF文档分类预处理:在处理PDF文档之前,MinerU首先对文档进行分类,识别其类型(如文本型、图层型或扫描版PDF),并进行相应的预处理,例如检测乱码和识别是否为扫描文档。
  • 模型解析与内容提取
    • 布局检测:使用基于深度学习的模型,如LayoutLMv3,进行区域检测,识别文档中的图像、表格、标题和文本等不同区域。
    • 公式检测:利用基于YOLOv8的自研模型来识别文档中的数学公式,区分行内公式和行间公式。
    • 公式识别:通过自研的UniMERNet模型来识别和解析数学公式,将它们转换成LaTeX格式。
    • 光学字符识别(OCR):使用PaddleOCR等OCR技术来识别文档中的文本内容。
  • 管线处理:将模型解析得到的数据输入到处理管线中,进行后处理,包括:
    • 确定块级别的顺序。
    • 删除无用元素。
    • 根据版面进行内容排序和拼装,以保证正文的流畅性。
    • 进行坐标修复、高iou处理、图片和表格描述合并、公式替换、图标转储、Layout排序等操作。
  • 多种格式输出:处理后的文档信息可以转换为统一的中间态格式(middle-json),并根据需求输出为不同的格式,如Layout、Span、Markdown或Content list等。
  • PDF提取结果质检:使用人工标注的PDF自测评测集对整个流程进行检测,确保提取效果的优化。使用可视化质检工具进行人工质检与标注,反馈给模型训练,进一步提升模型能力。

MinerU的项目地址

MinerU的应用场景

  • 学术研究:研究人员可从学术论文和期刊中提取关键信息,包括文本、公式和图表,支持文献综述和数据分析。
  • 法律文档处理:法律专业人士可用MinerU从合同、法律意见书和其他法律文件中提取条款和证据,提高工作效率。
  • 技术文档管理:工程师和技术作者可从技术手册和产品文档中提取技术规格和操作步骤,便于知识管理和技术传播。
  • 知识管理和信息检索:企业和组织可以用MinerU从内部文档库中提取信息,构建知识库,提高信息检索的效率。
  • 数据挖掘和自然语言处理(NLP):数据科学家和NLP研究人员可用MinerU提取的数据来训练和优化机器学习模型。

部署使用:
官方说明地址:

https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md

conda create -n MinerU python=3.10
conda activate MinerU
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

从 ModelScope 下载模型(国内直接模搭上下吧)

使用python脚本 从ModelScope下载模型文件

pip install modelscope
wget https://gitee.com/myhloli/MinerU/raw/master/scripts/download_models.py -O download_models.py
python download_models.py

python脚本会自动下载模型文件并配置好配置文件中的模型目录

配置文件可以在用户目录中找到,文件名为magic-pdf.json

windows的用户目录为 "C:\Users\用户名", linux用户目录为 "/home/用户名", macOS用户目录为 "/Users/用户名"

命令行执行:

https://mineru.readthedocs.io/zh-cn/latest/user_guide/quick_start/command_line.html

示例:

magic-pdf -p 44_宏光MINI_EV_instruction.pdf -o output -m auto

使用过程中的一些异常:

1.个别文档会遇到这总叠词,需要自己手动处理一下

2.pdf的水印问题导致文档解析失败

一些水印情况会导致失败,只能是处理完水印再重新处理文档

目录
相关文章
|
3月前
|
人工智能 文字识别 自然语言处理
熊猫 OCR 识别软件下载,支持截图 OCR、PDF 识别、多语言翻译的免费全能工具,熊猫OCR识别
本文介绍了几款实用的图文识别软件,包括熊猫OCR、Umi-OCR和天若OCR_本地版。熊猫OCR功能强大,支持多窗口操作、AI找图找色、OCR识别等;Umi-OCR免费且高效,具备截图OCR、批量处理等功能;天若OCR界面简洁,适合快速文字识别。文章还提供了下载链接及软件特点、界面展示等内容,便于用户根据需求选择合适的工具。
305 36
|
5月前
|
机器学习/深度学习 算法 数据挖掘
PyTabKit:比sklearn更强大的表格数据机器学习框架
PyTabKit是一个专为表格数据设计的新兴机器学习框架,集成了RealMLP等先进深度学习技术与优化的GBDT超参数配置。相比传统Scikit-Learn,PyTabKit通过元级调优的默认参数设置,在无需复杂超参调整的情况下,显著提升中大型数据集的性能表现。其简化API设计、高效训练速度和多模型集成能力,使其成为企业决策与竞赛建模的理想工具。
169 12
PyTabKit:比sklearn更强大的表格数据机器学习框架
|
3月前
|
前端开发
个人征信PDF无痕修改软件,个人征信模板可编辑,个人征信报告p图神器【js+html+css仅供学习用途】
这是一款信用知识学习系统,旨在帮助用户了解征信基本概念、信用评分计算原理及信用行为影响。系统通过模拟数据生成信用报告,涵盖还款记录
|
4月前
|
安全 BI
AiPy实战:批量解析 PDF 漏洞报告,今日高风险数据一键归档
作为安全合规部门的效率神器,AiPy工具让处理200+份PDF漏洞报告变得简单高效。只需三步:批量导入文件、精准提取高风险漏洞数据(如编号、名称、类型等),并生成无重复的Excel报表,极大减少手动操作与错误。示例中,从指定目录提取含“高”字样的漏洞信息,并按要求保存为以日期命名的Excel文件,确保数据唯一且完整。相比传统手动方式,AiPy不仅提升工作效率,还留出更多时间专注安全策略优化与技术研究,助你成为团队核心骨干!
|
8月前
|
机器学习/深度学习 数据采集 JSON
Pandas数据应用:机器学习预处理
本文介绍如何使用Pandas进行机器学习数据预处理,涵盖数据加载、缺失值处理、类型转换、标准化与归一化及分类变量编码等内容。常见问题包括文件路径错误、编码不正确、数据类型不符、缺失值处理不当等。通过代码案例详细解释每一步骤,并提供解决方案,确保数据质量,提升模型性能。
322 88
|
6月前
|
存储 人工智能 文字识别
pdf-craft:PDF秒转Markdown/EPUB!接入DeepSeek轻松生成电子书,自动整理目录、注释和引文
pdf-craft是一款专注于处理扫描书籍PDF的开源工具,能精准提取正文内容并转换为Markdown/EPUB格式,通过AI算法解决跨页连贯性问题,是学术研究和电子书制作的利器。
1094 10
|
8月前
|
人工智能 文字识别 自然语言处理
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
Vision Parse 是一款开源的 PDF 转 Markdown 工具,基于视觉语言模型,能够智能识别和提取 PDF 中的文本和表格,并保持原有格式和结构。
1141 19
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
|
8月前
|
机器学习/深度学习 数据采集 算法
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
746 36
|
8月前
|
机器学习/深度学习 人工智能
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。
232 11
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
|
6月前
|
机器学习/深度学习 传感器 数据采集
基于机器学习的数据分析:PLC采集的生产数据预测设备故障模型
本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数,进行数据预处理和特征提取,选择合适的机器学习模型(如随机森林、XGBoost),并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查,强调模型预测应结合定期维护,确保系统稳定运行。
652 0

热门文章

最新文章

相关产品

  • 人工智能平台 PAI