电商搜索能力解读--实体识别(NER)

简介: 搜索是电商行业业务转化中最重要的功能,那你了解其中的技术实现原理吗?一起来了解基于多年淘系全量数据和知识库深入优化的电商行业实体识别的能力吧,在查询分析和类目预测中能带来哪些优化效果那~

实体识别功能介绍

实体识别,全称命名实体识别(Named Entity Recognition,简称NER),指对电商查询词中的具有特定意义的语义实体进行实体词打标识别其中的品牌、品类、品类修饰、型号、款式等40种类别 。查询分析根据识别的结果,依据实体类型的权重对查询词进行改写,使得召回的文档符合查询的意图。

类别

普通词

材质

风格

款式元素

颜色

品牌

功能功效

尺寸规格

品质成色

场景

人群

套装

时间季节

型号

新品

系列

营销服务

地点地域

人名

文娱书文曲

机构实体

影视名称

游戏名称

数字

单位

品类

新词

修饰

专有名词

品类修饰词

符号

前缀

后缀

赠送

否定

代理

开放搜索实体识别优势

   基于多年淘系全量数据和知识库深入优化电商行业实体识别能力,解决品牌更新快歧义大品类存在修饰关系,品牌品类搭配关系等问题。解决尤其在中文上由于缺乏天然分隔符面临边界歧义、语义歧义、嵌套歧义等困难

实体识别在查询分析中作用

1.作用于query改写:

   开放搜索查询分析可以改写两个query,第一个query更精准,第二个query减少了参与召回的term,旨在当更精确的召回结果数不足时,用第二个query进行扩大召回。query改写主要根据实体的重要性召回时保留重要性高的实体词,对重要性低的部分不影响召回,只影响算法排序。

实现方式

   实体重要性目前分为高、中、低三档。其中“品牌、品类”是在高档,也就是最重要的;其次“风格、款式、颜色、季节、人群、地点…”处于中档;最后“尺寸、修饰词、影响服务、系列、单位…”处于低档,可以丢弃不参与召回。


2.与类目预测一起使用

  query中不同的实体对类目的影响是不一样的,因此,当原query没有类目预测的结果时,会根据一定的规则,去掉和类目意图无关或者相关度低的词后,进行类目预测,这对长尾query的类目预测会有很大的帮助.

示例:

杨幂(人名)同款(后缀)春季(时间季节)修身(款式元素)连衣裙(品类)”丢词后的query按照优先级排序分别为:

春季修身连衣裙

春季连衣裙
修身连衣裙
连衣裙

系统会按照上述顺序依次查询类目预测的结果

更多类目预测功能详介绍https://help.aliyun.com/document_detail/69036.html

电商行业增强版实体识别能力再升级

   开放搜索打造独有的行业智能搜索解决方案,推出电商行业增强版,其中在实体识别能力上进行了再升级,使得实体打标效果更好,可以更精准的定位用户搜索意图满足商品搜索需求。

  • 现有框架知识库更新

基于老模型链路重新构建全量知识库,F1 69 -> 74

  • 标注训练数据,使用神经网络模型

标注10万条数据,耗时4个月,BiLSTM-CRF模型,F1 74 -> 78

  • 神经网络模型结合知识库

技术创新GraphNER框架结合监督模型与知识库,F1 78 -> 82

实体识别干预词典

    业务场景不同,实体识别语义也是不同的,为了方便用户使用,开放搜索提供实体识别干预词典,供用户自定义词的语义,目前实体识别的干预主要包括两个:一是对实体识别结果本身的干预,二是实体类型重要性的干预。当实体识别的结果不准时,应该通过实体识别的干预词典的配置来进行干预。通过创建实体识别干预词典,并在查询分析中实体识别配置相应的干预词典,就可以干预实体识别功能。


例如:业务特殊专有名词,需要进行实体识别干预。

    用户搜索“小熊 (Bear)婴儿指甲刀护理套装",其中“小熊”“bear”实体识别结果为:普通词,但实际业务上“小熊(bear)”是一家母婴品牌,这时可以使用干预词典,设置为“品牌”,从而影响召回排序的效果。

实践后的搜索性能对比

1. 搜索“荷兰美素佳儿婴幼儿奶粉“分词效果
• Before:“荷兰 美 素 佳 儿 婴幼儿 婴 幼 儿 奶粉 奶 粉”
• After: “荷兰(地点地域) 美素佳儿(品牌) 婴幼儿(人群) 奶粉(品类)”

2. 搜索“夏季新款凉鞋男童”
• Before:3个召回结果,
• After:22个召回结果
利用实体识别功能:定位搜索关键词
实体识别:“夏季”时间季节,“男童”人群;“新款"新品;;“凉鞋”品类;

 Query1:  “凉鞋”“夏季”“男童”;  

 Query2:“凉鞋”



阿里云搜索相关产品推荐

开放搜索(OpenSearch):基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,目前为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过内置各行业的查询语义理解、机器学习排序算法等能力,提供充分开放的引擎能力,助力开发者快速搭建更高性能、更高搜索基线效果的智能搜索服务

了解产品详情:https://www.aliyun.com/product/opensearch

了解更多电商行业搜索解决方案:https://www.aliyun.com/page-source//data-intelligence/activity/opensearch


如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群~

image.png

目录
相关文章
|
SQL 运维 搜索推荐
《揭秘,阿里开源自研搜索引擎Havenask的在线检索服务》
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask的在线检索服务,它具备高可用、高时效、低成本的优势,帮助企业和开发者量身定做适合业务发展的智能搜索服务。
85550 138
|
机器学习/深度学习 自然语言处理 算法
DL应用:query生成和query推荐
引言  在机器翻译、图片描述、语义蕴涵、语音识别和文本摘要中,序列到序列的问题已经有太多大牛研究了,也取得了很多突破。谷歌的Attention is all you need[1],舍弃并超越了主流的rnn与cnn序列建模框架,刷出了新的state of the art,这种大胆创新的精神值得我们学习。
16495 3
|
11月前
|
人工智能 自然语言处理 监控
构建智能客服Agent:从需求分析到生产部署
本文将结合我在多个智能客服项目中的实践经验,从需求分析、系统设计、核心算法实现到生产部署的完整技术链路进行深度剖析。文章重点关注客服场景的需求建模、多轮对话的上下文维护、知识库的动态集成以及人机协作的智能切换机制。通过详实的代码实现、丰富的技术图表和量化的性能评测,帮助读者构建一个真正适用于生产环境的智能客服Agent系统。这套技术方案已在多家大型企业成功落地,处理日均对话量超过10万次,为企业节省人力成本60%以上。
2540 3
|
人工智能 编解码 算法
DeepSeek加持的通义灵码2.0 AI程序员实战案例:助力嵌入式开发中的算法生成革新
本文介绍了通义灵码2.0 AI程序员在嵌入式开发中的实战应用。通过安装VS Code插件并登录阿里云账号,用户可切换至DeepSeek V3模型,利用其强大的代码生成能力。实战案例中,AI程序员根据自然语言描述快速生成了C语言的base64编解码算法,包括源代码、头文件、测试代码和CMake编译脚本。即使在编译错误和需求迭代的情况下,AI程序员也能迅速分析问题并修复代码,最终成功实现功能。作者认为,通义灵码2.0显著提升了开发效率,打破了编程语言限制,是AI编程从辅助工具向工程级协同开发转变的重要标志,值得开发者广泛使用。
9772 71
DeepSeek加持的通义灵码2.0 AI程序员实战案例:助力嵌入式开发中的算法生成革新
|
人工智能 自然语言处理 算法
电商行业智能搜索技术原理全解析
对于电商平台来说,智能搜索功能是至关重要的。本文剖析电商行业的搜索专属特点和业务需求,并介绍开放搜索提供的【电商行业模板】智能搜索能力,希望带给企业更多提升业务转化的思路和解决方案~
6558 1
电商行业智能搜索技术原理全解析
|
XML 存储 API
RAG效果优化:高质量文档解析详解
本文介绍了如何通过高质量的文档解析提升RAG系统整体的效果。
17522 15
|
机器学习/深度学习 人工智能 Kubernetes
开源AI驱动的商业综合体保洁管理——智能视频分析系统的技术解析
智能保洁管理系统通过计算机视觉与深度学习技术,解决传统保洁模式中监管难、效率低的问题。系统涵盖垃圾滞留监测、地面清洁度评估、设施表面检测等功能,实现高精度(96%以上)、实时响应(<200毫秒)。基于开源TensorFlow与Kubernetes架构,支持灵活部署与定制开发,适用于商场、机场等场景,提升管理效率40%以上。未来可扩展至气味监测等领域,推动保洁管理智能化升级。
587 26
|
存储 人工智能 数据库
Agno:18.7K Star!快速构建多模态智能体的轻量级框架,运行速度比LangGraph快5000倍!
Agno 是一个用于构建多模态智能体的轻量级框架,支持文本、图像、音频和视频等多种数据模态,能够快速创建智能体并实现高效协作。
4554 22
Agno:18.7K Star!快速构建多模态智能体的轻量级框架,运行速度比LangGraph快5000倍!
|
机器学习/深度学习 自然语言处理 监控
命名实体识别(Named Entity Recognition, NER)
命名实体识别(NER)是自然语言处理的重要任务,旨在从文本中识别并分类特定实体,如人名、地点、组织等。通过BIO等标注模式,利用HMM、CRF及深度学习模型如RNN、LSTM、Transformer等进行实体识别。预训练模型如BERT显著提升了NER的性能。NER广泛应用于新闻分析、生物医学等领域,是信息提取、知识图谱构建等任务的基础。
2108 3

热门文章

最新文章