敏感词过滤算法-前缀树-java

简介: 敏感词过滤算法-前缀树-java

前言


最近在做网上一个比较热门的博客项目,其中用到了前缀树进行敏感词过滤,这里记录一下


定义


• 前缀树

- 名称:Trie、字典树、查找树

- 特点:查找效率高,消耗内存大

- 应用:字符串检索、词频统计、字符串排序等


步骤


- 定义前缀树

- 根据敏感词,初始化前缀树

- 编写过滤敏感词的方法  


过程


我们先定义一颗前缀树,在程序开始阶段创建前缀树对敏感词进行保存,便于后续的查找

1. // 前缀树
2. private class TrieNode {
3. 
4. // 关键词结束标识
5. private boolean isKeywordEnd = false;
6. 
7. // 子节点(key是下级字符,value是下级节点)
8. private Map<Character, TrieNode> subNodes = new HashMap<>();
9. 
10. public boolean isKeywordEnd() {
11. return isKeywordEnd;
12.         }
13. 
14. public void setKeywordEnd(boolean keywordEnd) {
15.             isKeywordEnd = keywordEnd;
16.         }
17. 
18. // 添加子节点
19. public void addSubNode(Character c, TrieNode node) {
20.             subNodes.put(c, node);
21.         }
22. 
23. // 获取子节点
24. public TrieNode getSubNode(Character c) {
25. return subNodes.get(c);
26.         }
27. 
28.     }
1. @PostConstruct
2. public void init() {
3. try (
4. InputStream is = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");
5. BufferedReader reader = new BufferedReader(new InputStreamReader(is));
6.         ) {
7.             String keyword;
8. while ((keyword = reader.readLine()) != null) {
9. // 添加到前缀树
10. this.addKeyword(keyword);
11.             }
12.         } catch (IOException e) {
13.             logger.error("加载敏感词文件失败: " + e.getMessage());
14.         }
15.     }
16. 
17. // 将一个敏感词添加到前缀树中
18. private void addKeyword(String keyword) {
19. TrieNode tempNode = rootNode;
20. for (int i = 0; i < keyword.length(); i++) {
21. char c = keyword.charAt(i);
22. TrieNode subNode = tempNode.getSubNode(c);
23. 
24. if (subNode == null) {
25. // 初始化子节点
26.                 subNode = new TrieNode();
27.                 tempNode.addSubNode(c, subNode);
28.             }
29. 
30. // 指向子节点,进入下一轮循环
31.             tempNode = subNode;
32. 
33. // 设置结束标识
34. if (i == keyword.length() - 1) {
35.                 tempNode.setKeywordEnd(true);
36.             }
37.         }
38.     }

在后续的搜索过程中,我们设置三个指针,指针1指向树,指针2,3指向字符串,具体流程见代码

1. /**
2.      * 过滤敏感词
3.      *
4.      * @param text 待过滤的文本
5.      * @return 过滤后的文本
6.      */
7. public String filter(String text) {
8. if (StringUtils.isBlank(text)) {
9. return null;
10.         }
11. 
12. // 指针1
13. TrieNode tempNode = rootNode;
14. // 指针2
15. int begin = 0;
16. // 指针3
17. int position = 0;
18. // 结果
19. StringBuilder sb = new StringBuilder();
20. 
21. while (position < text.length()) {
22. char c = text.charAt(position);
23. 
24. // 跳过符号
25. if (isSymbol(c)) {
26. // 若指针1处于根节点,将此符号计入结果,让指针2向下走一步
27. if (tempNode == rootNode) {
28.                     sb.append(c);
29.                     begin++;
30.                 }
31. // 无论符号在开头或中间,指针3都向下走一步
32.                 position++;
33. continue;
34.             }
35. 
36. // 检查下级节点
37.             tempNode = tempNode.getSubNode(c);
38. if (tempNode == null) {
39. // 以begin开头的字符串不是敏感词
40.                 sb.append(text.charAt(begin));
41. // 进入下一个位置
42.                 position = ++begin;
43. // 重新指向根节点
44.                 tempNode = rootNode;
45.             } else if (tempNode.isKeywordEnd()) {
46. // 发现敏感词,将begin~position字符串替换掉
47.                 sb.append(REPLACEMENT);
48. // 进入下一个位置
49.                 begin = ++position;
50. // 重新指向根节点
51.                 tempNode = rootNode;
52.             } else {
53. // 检查下一个字符
54. if(position<text.length()-1){
55.                     position++;
56.                 }
57.             }
58.         }
59. 
60. // 将最后一批字符计入结果
61.         sb.append(text.substring(begin));
62. 
63. return sb.toString();
64.     }
65. 
66. // 判断是否为符号
67. private boolean isSymbol(Character c) {
68. // 0x2E80~0x9FFF 是东亚文字范围
69. return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
70.     }


测试



完整代码


1. @Component
2. public class SensitiveFilter {
3. 
4. // 实例化log
5. private static final Logger logger = LoggerFactory.getLogger(SensitiveFilter.class);
6. 
7. // 替换符
8. private static final String REPLACEMENT = "***";
9. 
10. // 根节点
11. private TrieNode rootNode = new TrieNode();
12. 
13. @PostConstruct
14. public void init() {
15. try (
16. InputStream is = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");
17. BufferedReader reader = new BufferedReader(new InputStreamReader(is));
18.         ) {
19.             String keyword;
20. while ((keyword = reader.readLine()) != null) {
21. // 添加到前缀树
22. this.addKeyword(keyword);
23.             }
24.         } catch (IOException e) {
25.             logger.error("加载敏感词文件失败: " + e.getMessage());
26.         }
27.     }
28. 
29. // 将一个敏感词添加到前缀树中
30. private void addKeyword(String keyword) {
31. TrieNode tempNode = rootNode;
32. for (int i = 0; i < keyword.length(); i++) {
33. char c = keyword.charAt(i);
34. TrieNode subNode = tempNode.getSubNode(c);
35. 
36. if (subNode == null) {
37. // 初始化子节点
38.                 subNode = new TrieNode();
39.                 tempNode.addSubNode(c, subNode);
40.             }
41. 
42. // 指向子节点,进入下一轮循环
43.             tempNode = subNode;
44. 
45. // 设置结束标识
46. if (i == keyword.length() - 1) {
47.                 tempNode.setKeywordEnd(true);
48.             }
49.         }
50.     }
51. 
52. /**
53.      * 过滤敏感词
54.      *
55.      * @param text 待过滤的文本
56.      * @return 过滤后的文本
57.      */
58. public String filter(String text) {
59. if (StringUtils.isBlank(text)) {
60. return null;
61.         }
62. 
63. // 指针1
64. TrieNode tempNode = rootNode;
65. // 指针2
66. int begin = 0;
67. // 指针3
68. int position = 0;
69. // 结果
70. StringBuilder sb = new StringBuilder();
71. 
72. while (position < text.length()) {
73. char c = text.charAt(position);
74. 
75. // 跳过符号
76. if (isSymbol(c)) {
77. // 若指针1处于根节点,将此符号计入结果,让指针2向下走一步
78. if (tempNode == rootNode) {
79.                     sb.append(c);
80.                     begin++;
81.                 }
82. // 无论符号在开头或中间,指针3都向下走一步
83.                 position++;
84. continue;
85.             }
86. 
87. // 检查下级节点
88.             tempNode = tempNode.getSubNode(c);
89. if (tempNode == null) {
90. // 以begin开头的字符串不是敏感词
91.                 sb.append(text.charAt(begin));
92. // 进入下一个位置
93.                 position = ++begin;
94. // 重新指向根节点
95.                 tempNode = rootNode;
96.             } else if (tempNode.isKeywordEnd()) {
97. // 发现敏感词,将begin~position字符串替换掉
98.                 sb.append(REPLACEMENT);
99. // 进入下一个位置
100.                 begin = ++position;
101. // 重新指向根节点
102.                 tempNode = rootNode;
103.             } else {
104. // 检查下一个字符
105. if(position<text.length()-1){
106.                     position++;
107.                 }
108.             }
109.         }
110. 
111. // 将最后一批字符计入结果
112.         sb.append(text.substring(begin));
113. 
114. return sb.toString();
115.     }
116. 
117. // 判断是否为符号
118. private boolean isSymbol(Character c) {
119. // 0x2E80~0x9FFF 是东亚文字范围
120. return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
121.     }
122. 
123. // 前缀树
124. private class TrieNode {
125. 
126. // 关键词结束标识
127. private boolean isKeywordEnd = false;
128. 
129. // 子节点(key是下级字符,value是下级节点)
130. private Map<Character, TrieNode> subNodes = new HashMap<>();
131. 
132. public boolean isKeywordEnd() {
133. return isKeywordEnd;
134.         }
135. 
136. public void setKeywordEnd(boolean keywordEnd) {
137.             isKeywordEnd = keywordEnd;
138.         }
139. 
140. // 添加子节点
141. public void addSubNode(Character c, TrieNode node) {
142.             subNodes.put(c, node);
143.         }
144. 
145. // 获取子节点
146. public TrieNode getSubNode(Character c) {
147. return subNodes.get(c);
148.         }
149. 
150.     }
151. 
152. }
目录
相关文章
|
2月前
|
设计模式 算法 搜索推荐
Java 设计模式之策略模式:灵活切换算法的艺术
策略模式通过封装不同算法并实现灵活切换,将算法与使用解耦。以支付为例,微信、支付宝等支付方式作为独立策略,购物车根据选择调用对应支付逻辑,提升代码可维护性与扩展性,避免冗长条件判断,符合开闭原则。
402 35
|
7月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
2月前
|
存储 算法 搜索推荐
《数据之美》:Java数据结构与算法精要
本系列深入探讨数据结构与算法的核心原理及Java实现,涵盖线性与非线性结构、常用算法分类、复杂度分析及集合框架应用,助你提升程序效率,掌握编程底层逻辑。
|
7月前
|
存储 缓存 监控
上网行为监控系统剖析:基于 Java LinkedHashMap 算法的时间序列追踪机制探究
数字化办公蓬勃发展的背景下,上网行为监控系统已成为企业维护信息安全、提升工作效能的关键手段。该系统需实时记录并深入分析员工的网络访问行为,如何高效存储和管理这些处于动态变化中的数据,便成为亟待解决的核心问题。Java 语言中的LinkedHashMap数据结构,凭借其独有的有序性特征以及可灵活配置的淘汰策略,为上网行为监控系统提供了一种兼顾性能与功能需求的数据管理方案。本文将对LinkedHashMap在上网行为监控系统中的应用原理、实现路径及其应用价值展开深入探究。
195 3
|
7月前
|
人工智能 算法 NoSQL
LRU算法的Java实现
LRU(Least Recently Used)算法用于淘汰最近最少使用的数据,常应用于内存管理策略中。在Redis中,通过`maxmemory-policy`配置实现不同淘汰策略,如`allkeys-lru`和`volatile-lru`等,采用采样方式近似LRU以优化性能。Java中可通过`LinkedHashMap`轻松实现LRUCache,利用其`accessOrder`特性和`removeEldestEntry`方法完成缓存淘汰逻辑,代码简洁高效。
316 0
|
2月前
|
存储 人工智能 算法
从零掌握贪心算法Java版:LeetCode 10题实战解析(上)
在算法世界里,有一种思想如同生活中的"见好就收"——每次做出当前看来最优的选择,寄希望于通过局部最优达成全局最优。这种思想就是贪心算法,它以其简洁高效的特点,成为解决最优问题的利器。今天我们就来系统学习贪心算法的核心思想,并通过10道LeetCode经典题目实战演练,带你掌握这种"步步为营"的解题思维。
|
6月前
|
存储 算法 安全
Java中的对称加密算法的原理与实现
本文详细解析了Java中三种常用对称加密算法(AES、DES、3DES)的实现原理及应用。对称加密使用相同密钥进行加解密,适合数据安全传输与存储。AES作为现代标准,支持128/192/256位密钥,安全性高;DES采用56位密钥,现已不够安全;3DES通过三重加密增强安全性,但性能较低。文章提供了各算法的具体Java代码示例,便于快速上手实现加密解密操作,帮助用户根据需求选择合适的加密方案保护数据安全。
454 58
|
5月前
|
机器学习/深度学习 算法 Java
Java实现林火蔓延路径算法
记录正在进行的森林防火项目中林火蔓延功能,本篇文章可以较好的实现森林防火蔓延,但还存在很多不足,如:很多参数只能使用默认值,所以蔓延范围仅供参考。(如果底层设备获取的数据充足,那当我没说)。注:因林火蔓延涉及因素太多,如静可燃物载量、矿质阻尼系数等存在估值,所以得出的结果仅供参考。
101 4
|
5月前
|
存储 负载均衡 算法
我们来说一说 Java 的一致性 Hash 算法
我是小假 期待与你的下一次相遇 ~
205 1
|
4月前
|
运维 监控 算法
基于 Java 滑动窗口算法的局域网内部监控软件流量异常检测技术研究
本文探讨了滑动窗口算法在局域网流量监控中的应用,分析其在实时性、资源控制和多维分析等方面的优势,并提出优化策略,结合Java编程实现高效流量异常检测。
197 0

热门文章

最新文章