开发者学堂课程【Lucene 知识精讲与实战(上): SimpleAnlyzer】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/700/detail/12341
SimpleAnlyzer
SimpleAnlyzer 翻译过来是简单的分词器的意思,它的特点是:
把除字母以外的符号全部清除,对于字母,会把所有的字母变为小写,并且还会把数字去除,同样也不支持中文。
1.测试
在测试方法中对它进行测试。将测试代码进行复制,粘贴到测试类里面。
(1)请看以下代码:
/**
*简单分词器:不支持中文,将除了字母之外的所有符号全部去除,所有大写字母转换成小写字母,对于数字也会去除
*@throws Exception
*/
@Test
public void TestwhitespaceAnalyzer throws Exception{
//1.创建分词器,分析文档,对文档进行分词
Analyzer analyzer new WhitespaceAnalyzer ();
//2.创建 Directory 对象,声明索引库的位置
Directory directory = FSDirectory.open(Paths.get("E:\\dir"));
//3、创建 IndexwriteConfig 对象,写入索引需要的配置
IndexwriterConfig config = new IndexwriterConfig(analyzer);
//4.创建 Indexwriter 写入对象
Indexwriter indexwriter = new Indexwriter(directory,config);
/5.写入到索引库,通过 Indexwriter 添加文档对象 document
Document doc = new Document
doc.add(new TextField("name","vivo X238GB+128GB 幻夜蓝",Field.Store.YEs));
indexwriter.addDocument (doc);
//6.释放资源
indexwriter.close();
}
(2)把 look 小工具关闭,否则会占用磁盘,导致写入失败。
(3)把索引库中之前的数据清除,如图:
(4)执行测试代码,如图:
关于它的测试代码,和之前的是一样的,变化的只有使用的分词器。
(5)执行成功后打开 look 小工具,查看它的分词效果。如图:
可以看到,分成了四个词:幻夜蓝、x、vivo 和 gb 。在这里面没有出现数字并且也没有出现标点符号。
Document doc = new Document();
Doc.add(new TextField(“name”,”vivo,x23。 8GB=128GB; 幻夜蓝”,Field.Store.YES));
indexWriter.addDocument(doc);
对比分词前的原文:
①原文有加号,逗号等标点符号,而在分词后这些都被去掉了。
②它不支持中文,对中文没有进行切分词,中文全部是连成一块的。
③所有的大写字母都转换成了小写字母。
以上就是简单分词器的效果,接下来继续学习其他分词器。