开发者社区 问答 正文

文档智能这两个有什么区别吗?

文档智能这两个有什么区别吗?
iwEcAqNwbmcDAQTRBN0F0QO0BrBRwH55tJQD4gUWXdb6ALwAB9J8o2iOCAAJomltCgAL0gABM7Y.png_720x720q90.jpg

展开
收起
青城山下庄文杰 2023-10-16 17:49:24 49 分享 版权
阿里云 AI 助理回答

文档智能中的“文档解析(大模型版)”和“电子文档解析”是两种不同的文档处理能力,它们在支持的文档格式、输出内容、功能特点以及适用场景上存在显著差异。以下是两者的详细对比和区别:


1. 支持的文档格式

  • 文档解析(大模型版)
    支持市面上绝大部分格式的文档,包括但不限于:

    • 图片格式:.png, .jpg, .jpeg, .bmp, .gif
    • PDF(支持扫描页)
    • Word文档:.doc, .docx, .rtf, .docm
    • PPT文档:.pptx, .ppt
    • Excel文档:.xlsx, .xls
    • 其他:.txt, .epub, .mobi, .md, .html
  • 电子文档解析
    仅支持纯电子文档,不支持扫描件或图片类文档:

    • PDF(不支持扫描页)
    • Word文档:.doc, .docx, .rtf, .docm
    • PPT文档:.pptx, .ppt
    • Excel文档:.xlsx, .xls
    • 其他:.txt, .epub, .mobi, .md, .html

总结:文档解析(大模型版)支持更广泛的文档类型,尤其是包含扫描件和图片的文档,而电子文档解析仅适用于纯电子文档。


2. 输出内容

  • 文档解析(大模型版)

    • 提供丰富的版面信息,包括层级树、版面布局等。
    • 支持分块流式输出解析内容。
    • 支持输出Markdown格式。
    • 不输出原图和坐标信息
  • 电子文档解析

    • 提供简化的版面Layout信息和样式信息。
    • 支持输出Markdown格式。
    • 不输出原图和坐标信息

总结:文档解析(大模型版)的输出内容更加丰富,适合需要详细版面信息的场景;而电子文档解析则更简化,适合对版面信息要求较低的场景。


3. 功能特点

  • 文档解析(大模型版)

    • 功能较全,推荐使用。
    • 效果较好,能够处理复杂版式和多页长文档。
    • 速度较快,但相较于电子文档解析稍慢。
  • 电子文档解析

    • 功能中等,适合简单场景。
    • 效果中等,适合纯电子文档的快速解析。
    • 速度最快,适合对解析速度有较高要求的场景。

总结:文档解析(大模型版)更适合复杂文档的高质量解析,而电子文档解析则以速度见长,适合快速处理纯电子文档。


4. 适用场景

  • 文档解析(大模型版)

    • 适用于需要高精度解析的复杂文档场景,例如:
    • 长文档处理
    • 复杂表格解析
    • RAG(检索增强生成)和大模型预训练的文档预处理链路
  • 电子文档解析

    • 适用于对解析速度要求较高的简单场景,例如:
    • 纯电子文档的快速解析
    • 对版面信息要求较低的文档处理任务

总结:文档解析(大模型版)适合复杂、多样化的文档处理需求,而电子文档解析更适合轻量级、快速处理的场景。


5. 性能对比

版本支持格式输出特点效果速度
文档解析(大模型版)支持扫描件、图片及多种电子文档格式丰富的版面信息、分块流式输出、Markdown格式功能较全、效果较好较好较快
电子文档解析仅支持纯电子文档简化的版面信息、Markdown格式功能中等、速度最快中等最快

重要提醒

  • 如果您的文档包含扫描件或图片,必须选择文档解析(大模型版),因为电子文档解析不支持此类文档。
  • 如果您对解析速度有极高要求且文档为纯电子文档,可以选择电子文档解析以获得更快的处理效率。

通过以上对比,您可以根据具体的文档类型、处理需求和性能要求选择合适的能力。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答
问答地址: