开发者社区问答正文

文档智能这两个限制，后期会去掉吗，或者有其他方法识别超过20m并且文档字数超大的文档呢？

文档智能这两个限制，后期会去掉吗，或者有其他方法识别超过20m并且文档字数超大的文档呢？
iwEcAqNwbmcDAQTRBMsF0QO-BrBdWVUydpq5lwUWXXpCgK4AB9J8o2iOCAAJomltCgAL0gABJzQ.png_720x720q90.jpg

展开

收起

青城山下庄文杰 2023-10-16 17:49:25 327 版权

阿里云 AI 助理回答

根据现有知识库资料，文档智能目前对文件大小和文档字数有一定的限制，但这些限制并非完全不可调整或绕过。以下是针对您问题的详细解答：

1. 文件大小限制是否可以调整

文档智能各功能支持的文件大小限制可以根据用户需求进行调整。如果您的业务场景需要处理超过20MB的文件，建议直接联系阿里云技术支持团队。通过与技术团队沟通，您可以获得定制化的解决方案，以满足特定需求。

2. 超大文档（字数超多）的识别方法

对于文档字数超大的情况，文档智能提供了以下几种可能的解决方案：

（1）分页处理

文档解析（大模型版）支持单个文档最大为1.5万页且不超过150MB的PDF或Word文件。如果您的文档超出此范围，可以通过将文档拆分为多个较小的子文档（如按章节或段落拆分），分别上传并处理。处理完成后，再将结果合并。

（2）异步提交服务

文档解析（大模型版）提供异步提交服务接口（SubmitDocParserJob 和 SubmitDocParserJobAdvance），支持本地文件和URL文件两种方式上传。对于较大的文档，建议使用异步处理方式，避免因文件过大导致的处理失败或超时问题。

（3）PDF转图片后分批处理

如果文档过大且无法直接上传，可以先使用“PDF转图片”功能，将PDF逐页转换为图片格式，然后分批上传图片进行处理。该功能支持最大100MB的PDF文档，并能高效还原文档内容和版式样式。

（4）自定义模型训练

如果您经常需要处理超大文档，可以考虑基于文档智能的自定义模型功能，针对特定场景进行优化。例如： - 长文档信息抽取：适用于文档样式较为简单或复杂的场景，支持PDF和图片格式。建议准备至少50张训练数据以获得较好的识别效果。 - 表格信息抽取：适用于结构化信息抽取的场景，支持列表型和键值对型表格。建议准备至少20张训练数据。

3. 重要提醒

文件大小限制：目前文档智能对单个文件的大小限制为20MB（图片）或150MB（PDF/Word）。如果您的文档超出此范围，请优先考虑拆分或转换为图片后再上传。
文档长度限制：单个文档支持的最大页数为1.5万页。如果文档页数过多，建议分页处理。
性能优化：为了确保识别精度和速度，建议上传字迹清晰、分辨率适中的文档，单字大小保持在10-50像素内。

4. 总结建议

如果您当前的需求无法通过上述方法解决，建议联系阿里云技术支持团队，获取更高级别的定制化服务。同时，持续关注文档智能的功能更新，未来可能会进一步放宽文件大小和文档长度的限制。

希望以上信息能够帮助您解决问题！如有其他疑问，请随时联系我们。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答标签：

文档智能文档文档智能识别

问答地址：

开发者社区 > 人工智能 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料