开发者社区 问答 正文

文档智能这两个限制,后期会去掉吗,或者有其他方法识别超过20m并且文档字数超大的文档呢?

文档智能这两个限制,后期会去掉吗,或者有其他方法识别超过20m并且文档字数超大的文档呢?
iwEcAqNwbmcDAQTRBMsF0QO-BrBdWVUydpq5lwUWXXpCgK4AB9J8o2iOCAAJomltCgAL0gABJzQ.png_720x720q90.jpg

展开
收起
青城山下庄文杰 2023-10-16 17:49:25 83 分享 版权
阿里云 AI 助理回答

根据现有知识库资料,文档智能目前对文件大小和文档字数有一定的限制,但这些限制并非完全不可调整或绕过。以下是针对您问题的详细解答:

1. 文件大小限制是否可以调整

文档智能各功能支持的文件大小限制可以根据用户需求进行调整。如果您的业务场景需要处理超过20MB的文件,建议直接联系阿里云技术支持团队。通过与技术团队沟通,您可以获得定制化的解决方案,以满足特定需求。

2. 超大文档(字数超多)的识别方法

对于文档字数超大的情况,文档智能提供了以下几种可能的解决方案:

(1)分页处理

文档解析(大模型版)支持单个文档最大为1.5万页且不超过150MB的PDF或Word文件。如果您的文档超出此范围,可以通过将文档拆分为多个较小的子文档(如按章节或段落拆分),分别上传并处理。处理完成后,再将结果合并。

(2)异步提交服务

文档解析(大模型版)提供异步提交服务接口(SubmitDocParserJobSubmitDocParserJobAdvance),支持本地文件和URL文件两种方式上传。对于较大的文档,建议使用异步处理方式,避免因文件过大导致的处理失败或超时问题。

(3)PDF转图片后分批处理

如果文档过大且无法直接上传,可以先使用“PDF转图片”功能,将PDF逐页转换为图片格式,然后分批上传图片进行处理。该功能支持最大100MB的PDF文档,并能高效还原文档内容和版式样式。

(4)自定义模型训练

如果您经常需要处理超大文档,可以考虑基于文档智能的自定义模型功能,针对特定场景进行优化。例如: - 长文档信息抽取:适用于文档样式较为简单或复杂的场景,支持PDF和图片格式。建议准备至少50张训练数据以获得较好的识别效果。 - 表格信息抽取:适用于结构化信息抽取的场景,支持列表型和键值对型表格。建议准备至少20张训练数据。

3. 重要提醒

  • 文件大小限制:目前文档智能对单个文件的大小限制为20MB(图片)或150MB(PDF/Word)。如果您的文档超出此范围,请优先考虑拆分或转换为图片后再上传。
  • 文档长度限制:单个文档支持的最大页数为1.5万页。如果文档页数过多,建议分页处理。
  • 性能优化:为了确保识别精度和速度,建议上传字迹清晰、分辨率适中的文档,单字大小保持在10-50像素内。

4. 总结建议

如果您当前的需求无法通过上述方法解决,建议联系阿里云技术支持团队,获取更高级别的定制化服务。同时,持续关注文档智能的功能更新,未来可能会进一步放宽文件大小和文档长度的限制。

希望以上信息能够帮助您解决问题!如有其他疑问,请随时联系我们。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答