使用lucene测试hanlp的分词效果,发现hanlp配置的停用词根本不生效,请问有遇到过这问题的吗?
hanlp的停用词 路径说是不用改
#停用词词典路径 CoreStopWordDictionaryPath=data/dictionary/stopwords.txt
我的路径也是对的,因为其余的配置没问题,但是stopwords.txt文件中 的停用词根本没有作用,lucene在创建索引库的时候,还是会将停用词 分词存储
java代码里添加这一句,开启停用词,这个是标准分词示例。 List<Term> termList = CoreStopWordDictionary.apply(StandardTokenizer.segment(sentence));
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。