从pdf报告中提取财务报表

我一直在尝试将财务报表嵌入到pdf格式的年度报告中，然后使用python将其导出为excel/CSV格式，但我遇到了一些问题: 1. 具体的财务报表可以在报告的任何一页上。如果我要处理数百个pdf文件，我将不得不指定页码，这将花费大量时间。有什么办法能让刮板知道准确的位置吗? 2. 有些报告跨越多个页面，刮一个pdf后的最终结果不是我想要的 3.不同的年度报告有不同的财务报表格式。是否有方法处理它们并将它们更改为特定的标准格式? 如果有人做过类似的事情，并能分享一些例子，我也会很感激。 Ps:我正在使用python和tabula和Camelot 问题来源StackOverflow 地址：/questions/59382641/extraction-of-financial-statements-from-pdf-reports

展开

收起

kun坤 2019-12-27 17:04:42 1304 版权

2 条回答

写回答

取消提交回答

游客vxooljud5dszi

您好，请问下您这个问题解决了吗？当前也在做相关方向也遇到了这个问题

2021-04-27 17:49:13

赞同展开评论
kun坤

我遇到过类似的情况，问题是如何从pdf文件中提取特定的表单信息(姓名、出生日期等)。我使用带有pytesseract的tesseract开源软件对文件执行OCR。因为我不需要整个pdf文档,但从他们的具体信息,我设计了一个算法寻找信息:在我的例子中我使用了简单的启发式(特定领域、特定的行号和一些其他领域特定的东西),但是您还可以使用机器学习的方法和训练一个分类器可以找到所需的text-parts。你也可以使用领域特定的启发法，因为我确信财务报表有特殊的词汇表或一些文本标记来表明它的开始/结束。我希望我至少能给你一些解决这个问题的办法注::使用tesseract，您还可以处理多页pdf文件。3) -机器学习方法将需要一些样本，以学习一个良好的概括如何财务报表可能看起来像。

2019-12-27 17:04:49

赞同展开评论

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

从pdf报告中提取财务报表

相关文章