基于 Trie 实现敏感词过滤-阿里云开发者社区

基于 Trie 实现敏感词过滤

2021-08-16 640

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文章利用 Trie 数据结构来过滤敏感词

加载外部文件

publicvoidinit() {
try (
InputStreamis=this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");
BufferedReaderreader=newBufferedReader(newInputStreamReader(is));) {
Stringkeyword;
while ((keyword=reader.readLine()) !=null) {
// 添加到前缀树this.addKeyword(keyword);
        }
    } catch (IOExceptione) {
logger.error("加载敏感词文件失败: "+e.getMessage());
    }
    }

定义 Trie

privateclassTrieNode {
// 关键词结束标识privatebooleanisKeywordEnd=false;
// 子节点(key是下级字符,value是下级节点)privateMap<Character, TrieNode>subNodes=newHashMap<>();
publicbooleanisKeywordEnd() {
returnisKeywordEnd;
    }
publicvoidsetKeywordEnd(booleankeywordEnd) {
isKeywordEnd=keywordEnd;
    }
// 添加子节点publicvoidaddSubNode(Characterc, TrieNodenode) {
subNodes.put(c, node);
    }
// 获取子节点publicTrieNodegetSubNode(Characterc) {
returnsubNodes.get(c);
    }
}

将一个敏感词添加到前缀树中

privatevoidaddKeyword(TrieNoderootNode, Stringkeyword) {
TrieNodetempNode=rootNode;
for (inti=0; i<keyword.length(); i++) {
charc=keyword.charAt(i);
TrieNodesubNode=tempNode.getSubNode(c);
if (subNode==null) {
// 初始化子节点subNode=newTrieNode();
tempNode.addSubNode(c, subNode);
        }
// 指向子节点,进入下一轮循环tempNode=subNode;
// 设置结束标识if (i==keyword.length() -1) {
tempNode.setKeywordEnd(true);
        }
    }
}

过滤敏感词

publicStringfilter(Stringtext) {
if (StringUtils.isBlank(text)) {
returnnull;
    }
// 指针1TrieNodetempNode=rootNode;
// 指针2intbegin=0;
// 指针3intposition=0;
// 结果StringBuildersb=newStringBuilder();
while (position<text.length()) {
charc=text.charAt(position);
// 跳过符号if (isSymbol(c)) {
// 若指针1处于根节点,将此符号计入结果,让指针2向下走一步if (tempNode==rootNode) {
sb.append(c);
begin++;
            }
// 无论符号在开头或中间,指针3都向下走一步position++;
continue;
        }
// 检查下级节点tempNode=tempNode.getSubNode(c);
if (tempNode==null) {
// 以begin开头的字符串不是敏感词sb.append(text.charAt(begin));
// 进入下一个位置position=++begin;
// 重新指向根节点tempNode=rootNode;
        } elseif (tempNode.isKeywordEnd()) {
// 发现敏感词,将begin~position字符串替换掉sb.append("****");
// 进入下一个位置begin=++position;
// 重新指向根节点tempNode=rootNode;
        } else {
// 检查下一个字符position++;
        }
    }
// 将最后一批字符计入结果sb.append(text.substring(begin));
returnsb.toString();
}

基于 Trie 实现敏感词过滤

加载外部文件

定义 Trie

将一个敏感词添加到前缀树中

过滤敏感词

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

基于 Trie 实现敏感词过滤

加载外部文件

定义 Trie

将一个敏感词添加到前缀树中

过滤敏感词

热门文章

最新文章

相关电子书