我正在尝试将PDF银行摘录转换为csv。我是python的新手,但是我设法从pdf中提取文本。我以类似以下内容结束:
AMAZON 23/12/2019 15:40 -R $ 100,00 R $ 400,00信用 某些餐厅23/12/2019 14:00 -R $ 10,00 R $ 500信用 从John Doe收到22/12/2019 15:00 R $ 510 R $ 500,00 03游戏22/12/2019 15:00 R $ 10 R $ 10,00借记卡
我想要这个输出: AMAZON; 23/12/2019; -100,00 Some Restaurant; 23/12/2019; -10,00 从John Doe收到; 22/12/2019; 510 03游戏; 22/12/2019; 10
第一个字段的大小不同,我不需要时间和货币格式。我不需要最后2个字段。
到目前为止,我有以下代码(仅从PDF中提取文本):
import pdfplumber
import sys
url = sys.argv[1]
pdf = pdfplumber.open(url)
pdf_pages = len(pdf.pages)
for i in range(pdf_pages):
page = pdf.pages[(i)]
text = page.extract_text()
print(text)
pdf.close()
谁能给我一些指示?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。