开发者社区> 问答> 正文

es如何自定义分词器?

es如何自定义分词器?

展开
收起
小南瓜子 2024-07-22 15:04:33 71 0
1 条回答
写回答
取消 提交回答
  • 在阿里云Elasticsearch中自定义分词器的步骤如下:

    1. 创建自定义分析器
    • 登录开放搜索控制台,在左侧导航栏选择“搜索配置中心” -> “召回配置” -> “分析器管理”,点击【创建】按钮。
    • 定义分析器的名称并选择合适的分析器类型。

    2 . 添加干预词条

    • 在创建分析器的过程中,输入您希望干预的查询词汇(query)及其期望的分词结果,确保分词间用空格隔开。例如,“糯米”应输入为“糯 米”。可以选择是否进行二次分词等高级选项。

    3 . 配置分词细节

    • 可以配置Character Filter、Tokenizer和Token Filter等组件来精细控制分词过程。例如,在properties中指定analyzer为您的自定义分词器名称(如my_custom_analyzer),并在settings中详细配置该分词器的各项参数,包括但不限于type(必须为custom)、char_filter等。

    4 . 测试分词器

    • 输入样例文本进行分词测试,查看自定义分词器是否按预期工作。例如,输入“糯米”检查其分词结果是否符合配置的规则。

    5 . 线下变更与索引重建

    • 分词器配置满意并测试无误后,需要进行“线下变更”,这一步骤会基于当前配置生成一个不影响线上服务的测试环境。
    • 完成线下验证后,执行索引重建,使新的分词器规则生效于现有数据。

    6 . 部署到线上

    • 最后,回到“召回配置”下的“基本配置”,将此自定义分词器应用到线上环境中,完成部署。

    注意事项:

    • 确保key的内容不在同一干预词典中其他词条的value里作为部分出现,避免定义冲突。
    • 使用analysis-aliws插件的用户,需先安装该插件,并通过其提供的功能自定义更新分词词库。

    通过以上步骤,您可以根据需求灵活地在Elasticsearch中构建和应用自定义分词器。
    https://help.aliyun.com/zh/es/user-guide/use-the-analysis-aliws-plug-in

    2024-07-22 16:20:33
    赞同 3 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载