开发者社区> 问答> 正文

从600万个句子里移除符合要求的句子,最高效的办法是什么

在Python里面,用1万个正则表达式从600万个句子里面移除所有符合要求的句子。请问最高效的办法是什么? 类似于敏感词句子剔除1.jpg 这样的敏感词pattern有一万个。要从600万条句子里面把符合所有pattern的句子全部去掉,我现在用8个进程跑,半个小时还不到100万条。太慢了
来源:云原生后端社区
https://www.yuque.com/server_mind/answer

展开
收起
Atom 2020-04-25 14:22:52 681 0
1 条回答
写回答
取消 提交回答
  • 倒排索引非常有效。现在76秒就能把整个流程走完,速度提高了100万倍
    来源:云原生后端社区
    https://www.yuque.com/server_mind/answer

    2020-04-25 15:56:01
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
4个迭代,从批量交...1573957773.pdf 立即下载
140-弱监督机器学...1506573734.pdf 立即下载
低代码开发师(初级)实战教程 立即下载