MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: MarkItDown 是微软开源的多功能文档转换工具,支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式,具备 OCR 文字识别、语音转文字和元数据提取等功能。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持多种文件格式转换为 Markdown,包括 PDF、Office 文档、图像和音频等。
  2. 技术:具备 OCR 文字识别、语音转文字和元数据提取等技术。
  3. 应用:适用于文档归档、内容发布、数据挖掘和学术研究等场景。

正文(附运行示例)

MarkItDown 是什么

公众号: 蚝油菜花 - markitdown

MarkItDown 是微软开源的多功能文档转换工具,能够将 PDF、PPT、Word、Excel、图像、音频、HTML 等多种格式的文件转换为 Markdown 格式。它支持 OCR 文字识别、语音转文字和元数据提取,适用于内容索引、数据挖掘、文档处理等场景。

MarkItDown 以开源免费、功能全面和开发者友好的特点,成为文档智能转换的利器。它极大地简化了文件处理流程,提升了工作效率。

MarkItDown 的主要功能

  • 多格式文档转换:支持将 PDF、Office 文档(Word、Excel、PowerPoint)、图片、音频等多种文件格式自动转换为 Markdown 格式。
  • 元数据提取:从图片中提取 EXIF 信息、从音频文件中提取元数据。
  • OCR 文字识别:对图片和 PDF 文件进行光学字符识别(OCR),将图像中的文本内容转换为可编辑的文本格式。
  • 语音转文字:支持从音频文件中提取语音内容并转换成文字,便于内容存档和分析。
  • 简易 API:提供简单的 API 接口,开发者可以轻松地在 Python 项目中集成和使用 MarkItDown,进行文档转换。

MarkItDown 的技术原理

  • 文件解析:使用不同的解析器读取和解析各种文件格式的内容。
  • 文本提取与转换:对于文档类文件(如 Word、Excel、PowerPoint),将文档内容转换为纯文本,并保留结构化信息(如标题、列表等)以适应 Markdown 格式。对于图像文件,使用 OCR 技术识别图像中的文本,转换为文本格式。
  • 元数据处理:对于图像和音频文件,提取 EXIF 元数据,包括文件的创建时间、作者、设备信息等。
  • 语音转录:对于音频文件,使用语音识别技术将语音内容转录成文本。

如何运行 MarkItDown

命令行使用

markitdown path-to-file.pdf > document.md
AI 代码解读

你也可以通过管道传递内容:

cat path-to-file.pdf | markitdown
AI 代码解读

Python API 使用

基本用法:

from markitdown import MarkItDown

md = MarkItDown()
result = md.convert("test.xlsx")
print(result.text_content)
AI 代码解读

使用大型语言模型(LLM)进行图像描述:

from markitdown import MarkItDown
from openai import OpenAI

client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)
AI 代码解读

Docker 使用

docker build -t markitdown:latest .
docker run --rm -i markitdown:latest < ~/your-file.pdf > output.md
AI 代码解读

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

目录
打赏
0
9
9
1
401
分享
相关文章
熊猫 OCR 识别软件下载,支持截图 OCR、PDF 识别、多语言翻译的免费全能工具,熊猫OCR识别
本文介绍了几款实用的图文识别软件,包括熊猫OCR、Umi-OCR和天若OCR_本地版。熊猫OCR功能强大,支持多窗口操作、AI找图找色、OCR识别等;Umi-OCR免费且高效,具备截图OCR、批量处理等功能;天若OCR界面简洁,适合快速文字识别。文章还提供了下载链接及软件特点、界面展示等内容,便于用户根据需求选择合适的工具。
165 36
Nanonets-OCR-s开源!复杂文档转Markdown SoTA,颠覆复杂文档工作流
Nanonets团队开源了 Nanonets-OCR-s,该模型基于Qwen2.5-VL-3B微调,9G显存就能跑。
242 2
CodeBuddy 开发本地 PDF 转图工具
市场上的 PDF 转图片工具存在收费昂贵、功能有限、隐私安全风险等痛点,而使用 CodeBuddy 实现的本地 PDF 批量转图片工具可以有效解决这些问题。CodeBuddy 的强大编程能力让我们可以快速开发出满足需求的工具,而且工具可以在本地运行,保证了文件的隐私安全。此外,工具还支持批量处理和自定义功能,提高了工作效率。如果你也有 PDF 转图片的需求,不妨尝试使用 CodeBuddy 来实现一个属于自己的工具。
98 11
使用CodeBuddy实现批量转换PPT、Excel、Word为PDF文件工具
通过 CodeBuddy 实现本地批量转换工具,让复杂的文档处理需求转化为 “需求描述→代码生成→一键运行” 的极简流程,真正实现 “技术为效率服务” 的目标。感兴趣的快来体验下把
113 10
9.2K Star!微信排版从未如此简单,这款开源神器让Markdown飞入公众号!
一款9.2K Star的开源神器,让微信公众号排版变得简单高效!支持Markdown语法,实时预览、多图床混搭、AI智能排版、自定义主题样式等功能一应俱全。通过沉浸式双栏编辑、七图床混合编排、AI写作助手和主题定制工坊等核心功能,彻底解放技术创作者的生产力。无论是技术博客迁移、多平台发布还是企业定制,都能满足需求。三步上手:在线体验、本地部署、公众号对接。项目地址:https://github.com/doocs/md
146 4
【工具教程】批量PDF和图片OCR识别指定区域文字自动改图片名字,多个区域一次性批量识别改名批量重命名
本内容介绍了一款用于企业档案、医院病历及办公文件管理的图片和PDF文字识别工具。通过框选识别区域,软件可批量提取关键信息,实现文件重命名或导出为表格,极大提升管理效率。支持图片与PDF两种模式,操作简单,适用于合同、病历、报告等场景。提供详细步骤指导,包含区域设置、文件导入、批量处理及结果校验等功能。
413 8
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。
1570 67
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
Stirling-PDF:51.4K Star!用Docker部署私有PDF工作站,支持50多种PDF操作,从此告别在线工具
Stirling-PDF 是一款基于 Docker 的本地化 PDF 编辑工具,支持 50 多种 PDF 操作,包括合并、拆分、转换、压缩等,同时提供多语言支持和企业级功能,满足个人和企业用户的多样化需求。
404 6
Stirling-PDF:51.4K Star!用Docker部署私有PDF工作站,支持50多种PDF操作,从此告别在线工具
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。
559 4
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Linux系统之部署轻量级Markdown文本编辑器
【10月更文挑战第6天】Linux系统之部署轻量级Markdown文本编辑器
433 1
Linux系统之部署轻量级Markdown文本编辑器

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问