我一直在尝试将财务报表嵌入到pdf格式的年度报告中,然后使用python将其导出为excel/CSV格式,但我遇到了一些问题: 1. 具体的财务报表可以在报告的任何一页上。如果我要处理数百个pdf文件,我将不得不指定页码,这将花费大量时间。有什么办法能让刮板知道准确的位置吗? 2. 有些报告跨越多个页面,刮一个pdf后的最终结果不是我想要的 3.不同的年度报告有不同的财务报表格式。是否有方法处理它们并将它们更改为特定的标准格式? 如果有人做过类似的事情,并能分享一些例子,我也会很感激。 Ps:我正在使用python和tabula和Camelot 问题来源StackOverflow 地址:/questions/59382641/extraction-of-financial-statements-from-pdf-reports
我遇到过类似的情况,问题是如何从pdf文件中提取特定的表单信息(姓名、出生日期等)。我使用带有pytesseract的tesseract开源软件对文件执行OCR。因为我不需要整个pdf文档,但从他们的具体信息,我设计了一个算法寻找信息:在我的例子中我使用了简单的启发式(特定领域、特定的行号和一些其他领域特定的东西),但是您还可以使用机器学习的方法和训练一个分类器可以找到所需的text-parts。你也可以使用领域特定的启发法,因为我确信财务报表有特殊的词汇表或一些文本标记来表明它的开始/结束。 我希望我至少能给你一些解决这个问题的办法 注::使用tesseract,您还可以处理多页pdf文件。3) -机器学习方法将需要一些样本,以学习一个良好的概括如何财务报表可能看起来像。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。