一日一技:使用二分法排查正则表达式的异常

简介: 一日一技:使用二分法排查正则表达式的异常

摄影:产品经理下厨:kingname

现在我有10亿条微博正文,并从同事手上拿到了15000条需要过滤的垃圾信息正则表达式,只要微博正文符合任何一条正则表达式,就删除这条微博。

正则表达式的格式为:

^你成功领取
|^感谢您的积
|^在第\d+次抽奖.
|^只有帮主才
|^目标有相应
|^宝宝#G.
|^提交失败,
|^您已领取过
|^破军争夺战
|^首席大弟子
|数第\d+个丫鬟
|你的店铺
|恭喜.*?投中了
|<web
|你将该物品拆解成
|^你身上没有
|欢迎参加微博抽奖
|蔡徐坤
|王一博
|朱一龙
...

存放在一个名为trash.txt的文本文件中,每个正则表达式一行。

一般情况下,我只需要使用如下几行代码就能实现这个功能:

import re
with open('trash.txt', encoding='utf-8') as f:
    lines = [x.strip() for x in f]
    pattern = re.compile(''.join(lines))
for weibo in weibo_list:
    if pattern.search(weibo):
        print('垃圾信息,过滤!')

但是当我的代码运行到re.compile这一行时,报错了,如下图所示:

并且,即使你在 Google 上面搜索:re.error: multiple repeat at position,截至2019年12月30日,你能找到的都是对这个报错的讨论,但没有一个讨论能解决本文描述的问题。

那我们自食其力,来试着解决一下这个问题。它报错报的是position 167,那么我们来看看第167个字符有什么问题。在 PyCharm 中,可以在右下角查看你选中了多少个字符,如下图所示:


从截图中可以看到,第167个字符所在的这一行正则表达式为:|张三丰.*?张翠山.*?张无忌,但是我完全看不出这一行正则表达式有什么问题。

由于报错了,那么肯定至少有一行正则表达式有问题,我们假设有问题的正则表达式有且只有一行。现在我们有15000行正则表达式,如何找出有问题的这一行呢?

这个时候,我们就可以使用二分查找来解决这个问题,,我们最多查找14次就能找到有问题的这一行正则表达式。

由于正则表达式一共有15000行,我们就先看0-7500行在编译时是否会报错,如果报错,在看0-3750行是否报错,如果不报错,在看3750-7500行是否报错……如此分割下去,直到找到报错的这一行正则表达式。

二分查找的代码如下:

import re
with open('trash.txt', encoding='utf-8') as f:
    lines = [x.strip() for x in f]
def is_compile_success(regex):
    try:
        re.compile(regex)
        return True
    except Exception:
        return False
def search(regex_list):
    if len(regex_list) == 1:
        print(regex_list[0])
        return
    mid = len(regex_list) // 2
    part_1 = ''.join(regex_list[: mid])
    part_2 = ''.join(regex_list[mid: ])
    if not is_compile_success(part_1):
        search(regex_list[: mid])
        return
    if not is_compile_success(part_2):
        search(regex_list[mid:])
        return
search(lines)

运行结果如下图所示:

原来出问题的地方在:.*??,这里多写了一个问号。把这一行改成|赵大.*?包以后,编译成功通过。

目录
相关文章
|
5天前
|
Kubernetes 算法 测试技术
【贪心】【回溯】【字符串】2014. 重复 K 次的最长子序列
【贪心】【回溯】【字符串】2014. 重复 K 次的最长子序列
|
5天前
|
算法
面试题 01.01:判定字符是否唯一
面试题 01.01:判定字符是否唯一
21 0
|
5月前
|
机器学习/深度学习 算法 测试技术
C++动态规划算法的应用:得到 K 个半回文串的最少修改次数 原理源码测试用例
C++动态规划算法的应用:得到 K 个半回文串的最少修改次数 原理源码测试用例
|
9月前
|
算法
回溯到底怎么用?
回溯到底怎么用?
126 0
|
Python
正则表达式re.sub替换不完整的问题现象及其根本原因
正则表达式re.sub替换不完整的问题现象及其根本原因
78 0
|
Python
LeetCode 1941. 检查是否所有字符出现次数相同
给你一个字符串 s ,如果 s 是一个 好 字符串,请你返回 true ,否则请返回 false 。
70 0
检查两个字符串数组是否相等(简单难度)
检查两个字符串数组是否相等(简单难度)
63 0
|
C语言
每日一题断更一天(补上):1063统计字符
题目描述: 输入一行字符,分别统计出其中英文字母、空格、数字和其它字符的个数。 输入: 无
52 0
|
存储
【刷题记录】10. 正则表达式匹配
【刷题记录】10. 正则表达式匹配
147 0
【刷题记录】10. 正则表达式匹配
|
Java 编译器 索引
异常是怎么被处理的?这题的答案不在源码里面。 (上)
异常是怎么被处理的?这题的答案不在源码里面。 (上)
82 0
异常是怎么被处理的?这题的答案不在源码里面。 (上)