开发者社区> 问答> 正文

python re搜索语法以识别分布在多行上的文本模式

我最近开始使用python和正则表达式。作为第一个项目,我想读取pdf文件,过滤特定的文本数据并在Excel工作表中重新组合。因此,我遇到了一个正则表达式问题:

pdf文件输出格式:

...

此行的文本并不总是在这里\ n

这里的社区可以帮助您解决特定的编码,算法或语言问题。\ n

总结\ n

问 \ n

此行的文本并不总是在这里\ n

...

我想搜索“询问”并通过“特定编码”和“ \ nSummarize \ n”找到它。“询问”下面的文本不能始终可靠地使用,因为它总是不同的。

我试图为此使用(?= ...)和(?<= ...),但我找不到合适的解决方案。

也许我做错了。有人知道吗?

展开
收起
几许相思几点泪 2019-12-29 19:47:09 1047 0
1 条回答
写回答
取消 提交回答
  • 如果要查找ask,可以使用捕获组代替环顾四周。您可以匹配specific coding该行的其余部分.*

    如果其后有空行和换行符,则可以使用它们\s*进行匹配。

    然后匹配换行符,然后再匹配Summarize。

    再次匹配空行和换行符,然后ask在捕获组中捕获

    \bspecific coding\b.*\s*\r?\nSummarize\s*\r?\n(ask)\b
    
    2019-12-29 19:47:24
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
From Python Scikit-Learn to Sc 立即下载
Data Pre-Processing in Python: 立即下载
双剑合璧-Python和大数据计算平台的结合 立即下载