SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: SmolDocling 是一款轻量级的多模态文档处理模型,能够将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


📄 "学术狗集体泪目!这个AI把论文截图秒变Markdown,公式表格全保留"

大家好,我是蚝油菜花。当同行还在为PDF转Word格式错乱抓狂时,这个开源神器已经让文档处理进入光速时代!

你是否经历过这些窒息操作:

  • 🔍 手动整理论文截图里的公式,眼瞎三回还没对齐
  • ⏳ 等传统OCR识别表格,咖啡凉了进度条才走一半
  • 💻 跑个文档模型显卡咆哮如直升飞机...

今天要吹爆的 SmolDocling ,正在重新定义文档处理标准!这个仅256M参数的开源核弹,用三大绝技炸穿行业天花板:

  • 闪电转换:A100显卡0.35秒/页,比传统OCR快10倍
  • 元素全捕获:公式/图表/代码块智能识别,LaTeX直接输出
  • 零门槛部署:500MB显存即可运行,MacBook都能流畅跑

已有实验室用它1小时处理完200篇文献,文末附《科研狗效率翻倍指南》——你的文献库准备好迎接降维打击了吗?

🚀 快速阅读

SmolDocling 是一款轻量级的多模态文档处理模型,能够高效地将图像文档转换为结构化文本。

  1. 核心功能:支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。
  2. 技术原理:采用 SigLIP base patch-16/512 作为视觉骨干网络,使用 SmolLM-2 作为文本编码器,支持多模态融合与输出。

SmolDocling 是什么

SmolDocling

SmolDocling(SmolDocling-256M-preview )是高效轻量级的多模态文档处理模型。能将文档图像端到端地转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。模型参数量仅 256M,推理速度快,A100 GPU 上每页处理仅需 0.35 秒,与 Docling 完全兼容,可导出多种格式。

SmolDocling 的主要功能

  • 多模态文档转换:能将图像文档高效转换为结构化文本,支持科学和非科学文档。
  • 快速推理:在 A100 GPU 上处理一页文档仅需 0.35 秒,使用不到 500MB 的显存。
  • OCR 与布局识别:支持光学字符识别(OCR),保留文档结构和元素的边界框。
  • 复杂元素识别:能识别代码块、数学公式、图表、表格等复杂文档元素。
  • 与 Docling 无缝集成:支持将结果转换为多种格式(如 Markdown、HTML 等),兼容 Docling。
  • 指令支持:支持多种指令,如将页面转换为 Docling 格式、将图表转换为表格、将公式转换为 LaTeX 等。

SmolDocling 的技术原理

  • 轻量级设计:SmolDocling-256M-preview 是仅包含 256M 参数的视觉语言模型,专为文档光学字符识别(OCR)和转换而设计。能在消费级 GPU 上快速处理文档,使用不到 500MB 的显存,每页文档的处理时间仅需 0.35 秒。
  • 视觉骨干网络:模型采用了 SigLIP base patch-16/512 作为视觉骨干网络,网络参数量为 93M,能高效地处理图像输入。通过像素压缩技术,每个 512×512 的图像块被压缩为 64 个视觉标记,显著降低了计算资源需求。
  • 文本编码器:SmolDocling-256M-preview 使用 SmolLM-2 作为文本编码器,编码器参数量为 135M,能处理文本输入并与视觉信息进行融合。
  • 多模态融合与输出:模型能接收图像和文本的多模态输入,生成结构化的文本输出。支持多种文档处理功能,包括将文档图像转换为结构化文本、提取图表和表格信息、将数学公式转换为 LaTeX 格式等。
  • 优化的数据集与训练策略:SmolDocling-256M-preview 的训练数据集包括科学和非科学文档,文档理解占比达到 41%。训练过程中采用了更高的像素标记率(4096 像素/标记),相比之前的 1820 像素/标记,显著提升了效率。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
674 109
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
270 2
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1418 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
263 120
|
2月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
785 2
|
2月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1435 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
567 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型

热门文章

最新文章