开发者社区> 问答> 正文

从pdf报告中提取财务报表

我一直在尝试将财务报表嵌入到pdf格式的年度报告中,然后使用python将其导出为excel/CSV格式,但我遇到了一些问题: 1. 具体的财务报表可以在报告的任何一页上。如果我要处理数百个pdf文件,我将不得不指定页码,这将花费大量时间。有什么办法能让刮板知道准确的位置吗? 2. 有些报告跨越多个页面,刮一个pdf后的最终结果不是我想要的 3.不同的年度报告有不同的财务报表格式。是否有方法处理它们并将它们更改为特定的标准格式? 如果有人做过类似的事情,并能分享一些例子,我也会很感激。 Ps:我正在使用python和tabula和Camelot 问题来源StackOverflow 地址:/questions/59382641/extraction-of-financial-statements-from-pdf-reports

展开
收起
kun坤 2019-12-27 17:04:42 1190 0
2 条回答
写回答
取消 提交回答
  • 您好,请问下您这个问题解决了吗?当前也在做相关方向也遇到了这个问题

    2021-04-27 17:49:13
    赞同 展开评论 打赏
  • 我遇到过类似的情况,问题是如何从pdf文件中提取特定的表单信息(姓名、出生日期等)。我使用带有pytesseract的tesseract开源软件对文件执行OCR。因为我不需要整个pdf文档,但从他们的具体信息,我设计了一个算法寻找信息:在我的例子中我使用了简单的启发式(特定领域、特定的行号和一些其他领域特定的东西),但是您还可以使用机器学习的方法和训练一个分类器可以找到所需的text-parts。你也可以使用领域特定的启发法,因为我确信财务报表有特殊的词汇表或一些文本标记来表明它的开始/结束。 我希望我至少能给你一些解决这个问题的办法 注::使用tesseract,您还可以处理多页pdf文件。3) -机器学习方法将需要一些样本,以学习一个良好的概括如何财务报表可能看起来像。

    2019-12-27 17:04:49
    赞同 展开评论 打赏
问答分类:
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
对象存储实战指南-试读 立即下载
OpenAnolis 龙蜥操作系统开源社区技术创新白皮书 立即下载
使用CNFS搭建弹性Web服务 立即下载