搜索NLP行业模型和轻量化客户定制

2021-09-27 2041

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 开放搜索NLP行业模型和轻量化客户定制方案，解决减少客户标注成本、完全无标注或少量简单标注的等问题，让搜索领域扩展更易用。

特邀嘉宾：

徐光伟（昆卡）--阿里巴巴算法专家

视频地址：https://yqh.aliyun.com/live/opensearch

搜索NLP算法

搜索链路

这是一个完整的从查询词到搜索结果的链路，其中NLP算法发挥作用的地方主要在第二阶段的查询分析，该阶段包含多个NLP 算法模块，如文本侧的分词、纠错、实体识别、词权重、同义词以及语义向量等。系统是结合文本和语义向量多路召回排序的架构，从而满足不同业务场景的搜索效果需求。当然除了查询分析，在第一阶段的搜索引导以及第四阶段的排序服务中也有很多NLP 算法的应用。

查询分析

NLP 算法主要在这里的几个子模块发挥作用：

分词，精准的分词可以提高检索效率，也会让召回结果更加精准，
拼写纠错，对用户输入的query中出现拼拼写错误可以自动去纠错，提高搜索的体验。
实体识别，可以对query 中的每个词打上对应的实体标签，从而为后续的query改写和排序提供关键的特征。
词权重模型，会对每个词打上高、中、低的档位，在查询结果时去做丢词的重查。
同义词，扩展出相同意思的词来扩大召回范围。
最后是经过完整的查询分析模块之后的一个整体的query改写，将用户输入的query转换成我们搜索引擎能识别到的查询串。

现在开放搜索不仅支持了阿里自研的搜索引擎，也对开源的ES引擎做了兼容，可以让用户更方便的使用到我们的算法能力。

行业模型

客户痛点

1.通用模型领域适配难

通用模型主要解决新闻资讯行业问题；
在具体行业上效果会大打折扣；

例如:通用领域和电商领域的模型的区别

2.公开行业模型少

云服务产商基本只提供通用模型
公开行业数据集也主要覆盖通用领域

解决难度

构建一个行业搜索NLP 模型的流程：

首先是标注数据集这一步对于行业知识的要求非常高，同时对于数据量的要求也需要达到万级别，标注这样的数据同时也需要数个月的时间。
接着是模型训练，这一步是需要有专业的算法人员，如果不是对算法不熟悉的话，模型的迭代效率会很低
最后是模型上线这一步需要工程人员去部署运维，如果涉及到深度模型的一些上线，还会有很多效率优化的工作需要去做。在数据集标注阶段其实就已经存在了很多的挑战。

分词标注难点

1.领域知识要求高

例如：

药物的名称：利多卡因氯己定气雾剂 | 利多卡因氯己定气雾剂
地址：南召县四棵树乡王营村 | 南召县四棵树乡王营村

2.交叉歧义判断难

例如：

洗衣服粉 | 洗衣服粉

实体识别标注难点

1.领域知识要求高

例如：

澳洲爱他美（母婴品牌）金装一段、科比（球鞋系列）4
pytorch实现GAN（算法模型）

解决方法

开放搜索基于阿里巴巴内部搜索的数据积累，结合自动化数据挖掘和自研的算法模型，对行业模型的构建链路做了一个改造。

同样是以分词和NER为例，下面模型图是分词的流程。我们首先通过自动的新词发现算法去挖掘目标领域的领域新词，得到这些新词之后，我们会在目标领域上去构建一个远程监督的训练数据。

基于这样的远程监督训练数据，我们提出了一个对抗学习网络的结构模型，结构可以达到降噪的效果，从而去年得到一个我们目标领域的领域模型。

下面的模型图是NER的流程，我们采用了结合图神经网络的graph NER的模型结构，它可以融合知识库和标注数据。知识库是由刚才分词的链路中新词发现模块自动挖掘出的新词，然后我们做一个自动的实体词打标，从而去构建出领域的知识库。对应的技术论文我们都已经发表在NLP 领域顶会ACL上。

小结一下，通过上面提到的技术方案，以电商行业为例，看一下开放搜索行业模型上达到的效果。

可以看到开放搜索的电商行业增强版都明显比通用版效果会好很多。

这套方案不仅仅适用于电商行业，只要是有数据积累的行业，都可以快速构建出一套行业模型。

开放搜索轻量化客户定制

客户痛点

首先可以看到通用模型直接使用大概能达到一个60分的效果。

刚刚提到的行业模型，适用能力可以达到80分的效果。

但具体到每个客户又存在细分领域的定制问题。一般客户的目标可能是要达到90分。

比如下面的两个例子：

左边的这个“万斯汽水系列”，这其实是一个球鞋的一个具体的品牌和系列名称，虽然开放搜索电商模型已经可以把品牌和普通词识别正确，但是对于汽水这个具体的细分的系列并没有正确的识别好。
下面右边的这个例子是“汉本萃葆蔚饮品”。这里开放搜索的电商模型完全没有识别出其中特有的品牌和它的子系列，客户在我们提供的行业模型基础上如果去做自主的定制优化一样会遇到上面介绍行业模型解决方案时的那些问题，从而最终很难去突破85分，

我们的目标是减少客户的标注成本，完全无标注或者少量简单的标注，让客户的定制会更加易用，从而直接达到一个85分的效果。

解决思路

整体的流程和行业模型构建链路类似，要把这些能力产品工具化让客户可以自主参与调优。

新建训练模型

下图是我们做的一个工具demo，上面是创模型，创建部分客户可以选择基础的行业模型，然后上传自己的领域无标注的数据就可以自动的开始模型的训练。

2.效果评估

下面是模型训练之后客户可以在我们的系统上面去做一个直观的效果评估，可以看到这里会列出基础的模型和以及自动训练之后的模型的效果的变化，客户也可以去做少量的人工标注来验证模型的效果。

这个链路目前已经在阿里内部使用，近期还会在开放搜索的产品上透出给到客户，原来我们去做一个轻量化的客户定制达到上述效果可能需要一到两个月的时间，还需要去标注1万句以上的这些标注数据。现在的话基于这套方案只需要一周的时间，完全无标注或者只需要去标注1000个此以内的标注数据就可以达到这样的效果。