什么是analyzer,什么是tokenizer?
analyzer是分析器,由三部分组成:字符过滤器 character filter、令牌过滤器 token filter、分词器tokenizer,所以tokenizer是analyzer的一部分
字符过滤器:用于过滤HTML标签、自定义映射、正则替换
令牌过滤器:用于过滤停用词、时态转换、大小写转换、同义词转换、语气词处理等
分词器:按照一定的规则来对字符串分词
standard analyzer和standard tokenizer有什么区别?
standard tokenizer是以空格为分隔符的分词器,而standard analyzer包含了standard tokenizer,并且额外包含了一个大写转小写的字符过滤器