最近在操作 es 迁移数据的过程中出现了这个问题,迁移数据的原因是为了给 convContent.content 加上 分词插件 hanlp ,具体的 mapping 如图所示
更改完索引之后,重新生成索引,并把原始索引中的数据导入到新建索引中,执行命令
POST _reindex { "source": { "index": "crm_meiqia_conversation", "size":500 }, "dest": { "index": "crm_meiqia_conversation_tmp" } }
看到如下报错信息
基于此报错信息,也查阅了相关资料,更改索引content 分词器之前没有问题,更改之后就出问题了,那么应该是 hanlp分词器引起的问题。
为了解决这个问题,将对应 id "6305338060" 中的数据查询出来,然后逐个对 convContent.content 进行分析
GET crm_meiqia_conversation/_search { "query": { "bool": { "must": [ { "term" : { "_id" : "6305338060" } } ] } } }
分词器分析执行语句
POST /_analyze { "analyzer": "hanlp", "text": """<p>您好,欢迎您咨询,网课全新升级,,<span style="color:#d35400"><strong>主打极速高效,小班精细化管理,现在购买可享补基础服务哦......</strong></span><br/></p><p><strong><span style="color:#8e44ad">限时福利:老学员可享最高优惠购买</span></strong></p><p></p><p>具体规则可直接联系客服发送 <strong><span style="color:#003ba5">【手机号+套餐名称】</span></strong> 查看哦,同时我们也会给您分配专属的学习规划师带领您操作哦!!!</p>""" }
执行分析结果
依次将当前索引指定id 6305338060 下的 字段内容 convContent.content 逐一取出分析,也都没有任何报错信息,但是给字段 content 加了 分词器 hanlp 之后迁移数据就报错。最后找不到具体原因,只能去掉分词器 hanlp 采用 es 默认分词器了。