SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: SmolDocling 是一款轻量级的多模态文档处理模型,能够将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


📄 "学术狗集体泪目!这个AI把论文截图秒变Markdown,公式表格全保留"

大家好,我是蚝油菜花。当同行还在为PDF转Word格式错乱抓狂时,这个开源神器已经让文档处理进入光速时代!

你是否经历过这些窒息操作:

  • 🔍 手动整理论文截图里的公式,眼瞎三回还没对齐
  • ⏳ 等传统OCR识别表格,咖啡凉了进度条才走一半
  • 💻 跑个文档模型显卡咆哮如直升飞机...

今天要吹爆的 SmolDocling ,正在重新定义文档处理标准!这个仅256M参数的开源核弹,用三大绝技炸穿行业天花板:

  • 闪电转换:A100显卡0.35秒/页,比传统OCR快10倍
  • 元素全捕获:公式/图表/代码块智能识别,LaTeX直接输出
  • 零门槛部署:500MB显存即可运行,MacBook都能流畅跑

已有实验室用它1小时处理完200篇文献,文末附《科研狗效率翻倍指南》——你的文献库准备好迎接降维打击了吗?

🚀 快速阅读

SmolDocling 是一款轻量级的多模态文档处理模型,能够高效地将图像文档转换为结构化文本。

  1. 核心功能:支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。
  2. 技术原理:采用 SigLIP base patch-16/512 作为视觉骨干网络,使用 SmolLM-2 作为文本编码器,支持多模态融合与输出。

SmolDocling 是什么

SmolDocling

SmolDocling(SmolDocling-256M-preview )是高效轻量级的多模态文档处理模型。能将文档图像端到端地转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。模型参数量仅 256M,推理速度快,A100 GPU 上每页处理仅需 0.35 秒,与 Docling 完全兼容,可导出多种格式。

SmolDocling 的主要功能

  • 多模态文档转换:能将图像文档高效转换为结构化文本,支持科学和非科学文档。
  • 快速推理:在 A100 GPU 上处理一页文档仅需 0.35 秒,使用不到 500MB 的显存。
  • OCR 与布局识别:支持光学字符识别(OCR),保留文档结构和元素的边界框。
  • 复杂元素识别:能识别代码块、数学公式、图表、表格等复杂文档元素。
  • 与 Docling 无缝集成:支持将结果转换为多种格式(如 Markdown、HTML 等),兼容 Docling。
  • 指令支持:支持多种指令,如将页面转换为 Docling 格式、将图表转换为表格、将公式转换为 LaTeX 等。

SmolDocling 的技术原理

  • 轻量级设计:SmolDocling-256M-preview 是仅包含 256M 参数的视觉语言模型,专为文档光学字符识别(OCR)和转换而设计。能在消费级 GPU 上快速处理文档,使用不到 500MB 的显存,每页文档的处理时间仅需 0.35 秒。
  • 视觉骨干网络:模型采用了 SigLIP base patch-16/512 作为视觉骨干网络,网络参数量为 93M,能高效地处理图像输入。通过像素压缩技术,每个 512×512 的图像块被压缩为 64 个视觉标记,显著降低了计算资源需求。
  • 文本编码器:SmolDocling-256M-preview 使用 SmolLM-2 作为文本编码器,编码器参数量为 135M,能处理文本输入并与视觉信息进行融合。
  • 多模态融合与输出:模型能接收图像和文本的多模态输入,生成结构化的文本输出。支持多种文档处理功能,包括将文档图像转换为结构化文本、提取图表和表格信息、将数学公式转换为 LaTeX 格式等。
  • 优化的数据集与训练策略:SmolDocling-256M-preview 的训练数据集包括科学和非科学文档,文档理解占比达到 41%。训练过程中采用了更高的像素标记率(4096 像素/标记),相比之前的 1820 像素/标记,显著提升了效率。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

目录
打赏
0
1
1
0
349
分享
相关文章
Umi-OCR:31K Star!离线OCR终结者!公式+二维码+多语种,开源免费吊打付费
Umi-OCR 是一款免费开源的离线 OCR 文字识别工具,支持截图、批量图片、PDF 扫描件的文字识别,内置多语言识别库,提供命令行和 HTTP 接口调用功能。
84 0
Umi-OCR:31K Star!离线OCR终结者!公式+二维码+多语种,开源免费吊打付费
Kimi 上线视觉思考模型,K1 系列强化学习模型正式开放,无需借助外部 OCR 处理图像与文本进行思考并回答
k1视觉思考模型是kimi推出的k1系列强化学习AI模型,具备端到端图像理解和思维链技术,能够在数学、物理、化学等领域表现优异。本文详细介绍了k1视觉思考模型的功能、技术原理、使用方法及其在多个应用场景中的表现。
314 68
Kimi 上线视觉思考模型,K1 系列强化学习模型正式开放,无需借助外部 OCR 处理图像与文本进行思考并回答
3.4K star!全能PDF处理神器开源!文档转换/OCR识别一键搞定
PDF-Guru 是一款开箱即用的全能型PDF处理工具,支持跨平台文档转换、智能OCR识别、多格式解析等核心功能。项目采用模块化架构设计,提供简洁的Web界面和API接口,开发者可快速集成到现有系统中。
谷歌放大招!多模态模型PaliGemma 2 Mix上线:通吃问答+OCR+检测等多项视觉理解任务,28B参数无需额外加载模型
PaliGemma 2 Mix 是谷歌DeepMind发布的多任务视觉语言模型,支持图像描述、OCR、目标检测等功能,适用于文档理解、科学问题解答等场景。
87 2
moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取
moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,具备强大的图像识别、OCR文字识别和数据提取能力,支持API调用,适用于多种应用场景。
235 6
moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
Vision Parse 是一款开源的 PDF 转 Markdown 工具,基于视觉语言模型,能够智能识别和提取 PDF 中的文本和表格,并保持原有格式和结构。
384 19
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
GOT来促进OCR-2.0的到来。该模型具有580百万参数,是一个统一、优雅和端到端的模型,由高压缩编码器和长上下文解码器组成。
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
MiniCPM-V 系列模型在多模态文档 RAG 中的应用(无需OCR的多模态文档检索+生成)
现在我们以 OpenBMB 基于 MiniCPM-V-2.0 训练的端到端多模态检索模型 MiniCPM-Visual-Embedding-v0 为例,实现无需OCR的多模态文档检索与问答。
MiniCPM-V 系列模型在多模态文档 RAG 中的应用(无需OCR的多模态文档检索+生成)
印刷文字识别使用问题之是否支持识别并返回文字在图片中的位置信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
印刷文字识别使用问题之如何数电发票进行识别
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

热门文章

最新文章