备案控制台

开发者社区问答正文

我测了几十份同样格式的PDF文件，有些PDF文件里的表格无法识别出来，kvlistinfo的长度不一

我测了几十份同样格式的PDF文件，有些PDF文件里的表格无法识别出来，kvlistinfo的长度不一致，无法通过顺序进行相同表格归类。有什么其他解决办法吗？

展开

收起

爱喝咖啡嘿 2022-12-22 14:00:51 281 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

六月的雨在钉钉

从事java行业9年至今，热爱技术，热爱以博文记录日常工作，csdn博主，座右铭是：让技术不再枯燥，让每一位技术人爱上技术

根据你的描述，你问的问题应该是关于阿里云文档智能（Document Mind）相关内容吧，文档智能技术依托多模态文档预训练模型，对PDF/Word/Excel/图片等非结构化文档进行结构化信息提取，通过层次化版面分析、多模态文档识别、多版式异构表格理解等核心算法技术，可实现多页长文档和复杂表格的处理。但是并不是pdf中的所有表格都能准确无误的识别出来，毕竟技术在进步，目前来说你看到的效果应该是当前的最后效果了，或者可以咨询在线技术人员看是否能提高表格识别精度。

2022-12-22 16:00:41

赞同展开评论

问答标签：

PDF文件 PDF表格格式PDF文件格式PDF PDF格式

问答地址：

开发者社区 > 人工智能 > 问答

相关问答

大写PDF后缀的文件智能媒体管理是否支持预览？

268

1

0

OSS上传的pdf文件如何调整成html格式显示

188

1

0

钉钉里如何预览PDF格式文件？

452

2

0

要在灵积中使用`pdf_extracter`插件，请问文件该从哪里读取？

75

0

0

pdf里面有个表格，我想通过文字识别OCR识别成结构化数据，可以吗？

103

2

0

文档智能 api文档里有word，测试页面只能是图片类或pdf，这个接口到底是否支持word文件？

110

1

0

在文字识别OCR中，用二进制方式打开文件，前四个字节不是"%PDF" ，有啥办法处理或者识别？

56

1

0

在文档智能中PDF里带二维码的，转换成Excel表格，二维码可以保留吗？

84

1

0

上云 k8s 上后？生成的 word 和 Excel 文件中文都是正常的，pdf 文件乱码是为什么？

1267

1

0

用户通过前端界面上传 PDF/DOC 等文件如何从OSS获取到上传的文件并进行相应的处理任务？

138

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

如何让 Dify on DMS 助力智能应用开发？

阿里云服务器经常卡顿怎么解决

“数据超人”MCP工具，到底是怎么让数据‘燃’起来的？

DeepSeek V3.1 昨天还能用tool，今天怎么就用不了了？

宜搭表单中的子表单数据联动BUG

还有其他疑问?