电商搜索能力解读--实体识别(NER)

本文涉及的产品
推荐全链路深度定制开发平台,高级版 1个月
简介: 搜索是电商行业业务转化中最重要的功能,那你了解其中的技术实现原理吗?一起来了解基于多年淘系全量数据和知识库深入优化的电商行业实体识别的能力吧,在查询分析和类目预测中能带来哪些优化效果那~

实体识别功能介绍

实体识别,全称命名实体识别(Named Entity Recognition,简称NER),指对电商查询词中的具有特定意义的语义实体进行实体词打标识别其中的品牌、品类、品类修饰、型号、款式等40种类别 。查询分析根据识别的结果,依据实体类型的权重对查询词进行改写,使得召回的文档符合查询的意图。

类别

普通词

材质

风格

款式元素

颜色

品牌

功能功效

尺寸规格

品质成色

场景

人群

套装

时间季节

型号

新品

系列

营销服务

地点地域

人名

文娱书文曲

机构实体

影视名称

游戏名称

数字

单位

品类

新词

修饰

专有名词

品类修饰词

符号

前缀

后缀

赠送

否定

代理

开放搜索实体识别优势

   基于多年淘系全量数据和知识库深入优化电商行业实体识别能力,解决品牌更新快歧义大品类存在修饰关系,品牌品类搭配关系等问题。解决尤其在中文上由于缺乏天然分隔符面临边界歧义、语义歧义、嵌套歧义等困难

实体识别在查询分析中作用

1.作用于query改写:

   开放搜索查询分析可以改写两个query,第一个query更精准,第二个query减少了参与召回的term,旨在当更精确的召回结果数不足时,用第二个query进行扩大召回。query改写主要根据实体的重要性召回时保留重要性高的实体词,对重要性低的部分不影响召回,只影响算法排序。

实现方式

   实体重要性目前分为高、中、低三档。其中“品牌、品类”是在高档,也就是最重要的;其次“风格、款式、颜色、季节、人群、地点…”处于中档;最后“尺寸、修饰词、影响服务、系列、单位…”处于低档,可以丢弃不参与召回。


2.与类目预测一起使用

  query中不同的实体对类目的影响是不一样的,因此,当原query没有类目预测的结果时,会根据一定的规则,去掉和类目意图无关或者相关度低的词后,进行类目预测,这对长尾query的类目预测会有很大的帮助.

示例:

杨幂(人名)同款(后缀)春季(时间季节)修身(款式元素)连衣裙(品类)”丢词后的query按照优先级排序分别为:

春季修身连衣裙

春季连衣裙
修身连衣裙
连衣裙

系统会按照上述顺序依次查询类目预测的结果

更多类目预测功能详介绍https://help.aliyun.com/document_detail/69036.html

电商行业增强版实体识别能力再升级

   开放搜索打造独有的行业智能搜索解决方案,推出电商行业增强版,其中在实体识别能力上进行了再升级,使得实体打标效果更好,可以更精准的定位用户搜索意图满足商品搜索需求。

  • 现有框架知识库更新

基于老模型链路重新构建全量知识库,F1 69 -> 74

  • 标注训练数据,使用神经网络模型

标注10万条数据,耗时4个月,BiLSTM-CRF模型,F1 74 -> 78

  • 神经网络模型结合知识库

技术创新GraphNER框架结合监督模型与知识库,F1 78 -> 82

实体识别干预词典

    业务场景不同,实体识别语义也是不同的,为了方便用户使用,开放搜索提供实体识别干预词典,供用户自定义词的语义,目前实体识别的干预主要包括两个:一是对实体识别结果本身的干预,二是实体类型重要性的干预。当实体识别的结果不准时,应该通过实体识别的干预词典的配置来进行干预。通过创建实体识别干预词典,并在查询分析中实体识别配置相应的干预词典,就可以干预实体识别功能。


例如:业务特殊专有名词,需要进行实体识别干预。

    用户搜索“小熊 (Bear)婴儿指甲刀护理套装",其中“小熊”“bear”实体识别结果为:普通词,但实际业务上“小熊(bear)”是一家母婴品牌,这时可以使用干预词典,设置为“品牌”,从而影响召回排序的效果。

实践后的搜索性能对比

1. 搜索“荷兰美素佳儿婴幼儿奶粉“分词效果
• Before:“荷兰 美 素 佳 儿 婴幼儿 婴 幼 儿 奶粉 奶 粉”
• After: “荷兰(地点地域) 美素佳儿(品牌) 婴幼儿(人群) 奶粉(品类)”

2. 搜索“夏季新款凉鞋男童”
• Before:3个召回结果,
• After:22个召回结果
利用实体识别功能:定位搜索关键词
实体识别:“夏季”时间季节,“男童”人群;“新款"新品;;“凉鞋”品类;

 Query1:  “凉鞋”“夏季”“男童”;  

 Query2:“凉鞋”



阿里云搜索相关产品推荐

开放搜索(OpenSearch):基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,目前为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过内置各行业的查询语义理解、机器学习排序算法等能力,提供充分开放的引擎能力,助力开发者快速搭建更高性能、更高搜索基线效果的智能搜索服务

了解产品详情:https://www.aliyun.com/product/opensearch

了解更多电商行业搜索解决方案:https://www.aliyun.com/page-source//data-intelligence/activity/opensearch


如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群~

image.png

目录
相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 算法
自然语言处理算法与文档管理软件:提升搜索与分类效率的未来
如果想要让你的文档管理软件更智能、更易用,那就让我们聊一聊如何巧妙地应用自然语言处理(NLP)算法吧!这绝对是提升用户体验和工作效率的“绝佳利器”!下面是一些能帮你通过自然语言处理算法提升文档管理软件的搜索和分类效率的方法——
102 1
|
自然语言处理 算法 机器人
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
|
2月前
|
人工智能 自然语言处理 Cloud Native
向量检索服务在语义检索、知识库搭建、AI多模态搜索等场景中有着广泛的应用
向量检索服务在语义检索、知识库搭建、AI多模态搜索等场景中有着广泛的应用
43 0
|
2月前
|
存储 人工智能 算法
【阿里云产品测评】揭秘阿里云向量检索服务:赋予智能时代搜索新“维度”
【1月更文挑战第3天】在数字化洪流席卷全球的今天,信息的表达与检索方式正在悄然变革。从字符到图像,再到复杂的多维度数据,我们正在步入一个深度理解、精准匹配的智能搜索新时代。此刻,阿里云推出的向量检索服务正以前沿技术之力,引领这一领域的创新潮流。 阿里云向量检索服务,内核采用自研的Proxima引擎,其强大之处在于能够实现水平拓展、全托管和云原生的高效向量检索。这就好比构建了一个可以无限延伸的“知识宇宙”,无论是大规模图像识别、语音识别模型生成的特征向量,还是复杂的大模型知识库结构化信息,都能通过向量化的形式被管理和高效检索。
|
3月前
|
算法 API 对象存储
视觉智能平台菜品识别要怎么做对比库呀?
视觉智能平台菜品识别要怎么做对比库呀?
30 1
|
4月前
|
传感器 机器学习/深度学习 编解码
智能驾驶--语义分割 公开数据集 汇总
本文整理了10个质量较好,数据集较大,比较新的,图像语义分割的公开数据集;主要服务于智能驾驶方向(辅助驾驶、自动驾驶等)。
86 0
|
7月前
|
存储 前端开发 API
使用大型语言模型进行自主视觉信息搜索
在调整大型语言模型(LLM)以适应任务的多模态输入方面取得了很大进展,包括图像标题,可视问答 (VQA)和开放词汇识别.尽管取得了这些成就,但当前最先进的视觉语言模型(VLM)在视觉信息搜索数据集上表现不佳,例如信息搜索和OK-VQA,需要外部知识才能回答问题。
91 0
|
7月前
|
人工智能 自然语言处理 算法
Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索
Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索
Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索
|
7月前
|
人工智能 自然语言处理
精细解析中文公司名称:智能分词工具助力地名、品牌名、行业词和后缀提取
精细解析中文公司名称:智能分词工具助力地名、品牌名、行业词和后缀提取
 精细解析中文公司名称:智能分词工具助力地名、品牌名、行业词和后缀提取
|
8月前
|
机器学习/深度学习 自然语言处理 算法
【ACL2023】基于电商多模态概念知识图谱增强的电商场景图文模型FashionKLIP
从大规模电商图文数据中自动化构建多模态概念级知识图谱的方案,随后将概念级多模态先验知识注入到VLP模型中,以实现跨模态图文样本在概念层面进一步对齐。

相关产品

  • 智能推荐 AIRec
  • 智能开放搜索 OpenSearch