[NLP比赛推荐]商品标题实体识别

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: [NLP比赛推荐]商品标题实体识别

60.png


61.png


https://www.heywhale.com/home/competition/620b34ed28270b0017b823ad/content/3


1 赛题背景


京东商品标题包含了商品的大量关键信息,商品标题实体识别是NLP应用中的一项核心基础任务,能为多种下游场景所复用,从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。本赛题要求选手使用模型抽取出商品标题文本中的实体。

与传统的实体抽取不同,京东商品标题文本的实体密度高、实体粒度细,赛题具有特色性。


2 比赛数据


  1. 本赛题数据来源于特定类目的京东商品标题短文本,分为有标注样本和无标注样本,供选手选择使用。
  2. 数据格式:训练集数据每一行第一列为一个字符或空格(汉字、英文字母、数字、标点符号、特殊符号、空格),第二列为BIO形式的标签,两列以空格分隔。
  3. 两条标注样本之间以空行为分割。
  4. 训练集:有标注训练样本:4万条左右(包括验证集,不再单独提供验证集,由选手自己切分;总量根据baseline模型效果可能会稍作调整);无标注样本:100万条。
    初赛A榜测试集:1万条(与训练样本格式相同,差异仅在于无标注)
    初赛B榜测试集:1万条(与训练样本格式相同,差异仅在于无标注)
    复赛测试集:1万条(与训练样本格式相同,差异仅在于无标注)
    决赛测试集:1万条(与训练样本格式相同,差异仅在于无标注)
  5. 标注样本示例:

    62.png
    👉点击下载样例(右键存储或者左键+Ctrl/command+S)


  1. 实体说明:
    实体共有52种类型,均已经过脱敏处理,用数字代号1至54表示(不包含27和45);其中“O”为非实体。标签中“B”代表一个实体的开始,“I”代表一个实体的中间或者结尾。“-”后的数字代号表示该字符的实体类型。
    值得注意的是实体不仅仅与实体词有关,而且与当前标题所售卖商品有关。举例说明,一个售卖产品为手机壳的商品标题中出现的“iPhone13”与售卖产品为手机的商品标题中出现的“iPhone13”为不同的实体标签。


3 数据下载


数据名称 数据描述 下载链接
数据样例 初赛训练集数据样例 👉🏻点击下载


** 4 提交要求**


选手针对测试数据提交预测结果文件,结果文件格式和标注样本完全一致(txt格式),每一行第一列为一个字符或空格(汉字、英文字母、数字、标点符号、特殊符号、空格),第二列为BIO形式的标签,两列以空格分隔,两条标注样本之间以空行为分割。

结果文件内容举例:


63.png

Image Name


👉点击下载样例(右键存储或者左键+Ctrl/command+S)


5 评测标准


本赛题采用实体级别的micro F1值作为排名依据。

记测试集真实标注实体结果为:G ={g1, g2, g3,…, gn}, 预测结果为S = {s1, s2, s3, …, sn},其中每个元素为实体词及其类型,按照在标题中出现的顺序排列。


64.png

Image Name


复赛阶段,将根据模型在单卡GPU(NVIDIA T4,或者同等算力的GPU卡)上的推理耗时对micro F1值进行惩罚:

1) 如果模型在单卡上单条数据的平均推理时间<math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>t</mi><mrow class="MJX-TeXAtom-ORD"><mi>i</mi><mi>n</mi><mi>f</mi><mi>e</mi><mi>r</mi><mi>e</mi><mi>n</mi><mi>c</mi><mi>e</mi></mrow></msub></math>小于360ms,不做惩罚;

2) 反之,如果<math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>t</mi><mrow class="MJX-TeXAtom-ORD"><mi>i</mi><mi>n</mi><mi>f</mi><mi>e</mi><mi>r</mi><mi>e</mi><mi>n</mi><mi>c</mi><mi>e</mi></mrow></msub></math>大于360ms,需要乘以一定的惩罚系数,具体如下:


65.png

Image Name


6 其他说明


  1. 允许使用外部数据,但在复赛开始前需要发布到赛题系统公开区;
  2. 不限制使用开源框架;
  3. 无标注数据提供给参赛者作为NLP预训练的选项;
  4. 参赛者在模型中可自行发挥进行标注格式转换,只需保证提交结果为BIO格式;
  5. 只允许产出一个模型;
  6. 复赛阶段,模型在单卡(NVIDIA T4,或者同等算力的GPU卡)上单条数据的推理时间要小于360ms,如果超过360ms,会根据推理耗时进行惩罚。
相关文章
|
5月前
|
机器学习/深度学习 自然语言处理
利用深度学习技术改进自然语言处理中的命名实体识别
命名实体识别(Named Entity Recognition, NER)在自然语言处理领域扮演着重要角色,但传统方法在处理复杂语境和多样化实体时存在局限性。本文将探讨如何利用深度学习技术,特别是基于预训练模型的方法,来改进命名实体识别,提高其在现实场景中的性能和适用性。
|
2月前
|
自然语言处理 BI 数据处理
自然语言处理 Paddle NLP - 基于预训练模型完成实体关系抽取
自然语言处理 Paddle NLP - 基于预训练模型完成实体关系抽取
84 1
|
自然语言处理 数据可视化 API
ESRE 系列(二):如何部署自然语言处理 (NLP):命名实体识别 (NER) 示例
本文采用示例讲解的方式,介绍使用一个命名实体识别 (NER) NLP 模型来定位和提取非结构化文本字段中预定义类别的实体。我们将通过一个公开可用的模型向您展示如何完成以下几种操作:部署模型到 Elasticsearch 中,利用 new _infer API 查找文本中的命名实体,以及在 Ingest 管道中使用 NER 模型,在文档被采集到 Elasticsearch 中时提取实体。
18204 12
ESRE 系列(二):如何部署自然语言处理 (NLP):命名实体识别 (NER) 示例
|
自然语言处理 算法 数据可视化
nlp入门之商品信息可视化与文本分析实战
本文主要演示了在爬取信息后如何将信息可视化及如何进行文本分析
|
人工智能 自然语言处理 PyTorch
NLP信息抽取全解析:从命名实体到事件抽取的PyTorch实战指南
NLP信息抽取全解析:从命名实体到事件抽取的PyTorch实战指南
775 0
|
机器学习/深度学习 人工智能 自然语言处理
深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)
深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)
深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)
|
机器学习/深度学习 设计模式 自然语言处理
自然语言处理 - 命名实体
命名实体(Named Entity)识别是NLP中一个重要的任务,它涉及到从自然语言文本中提取出具有特定意义的实体,例如人名、地名、组织机构名、时间等。
452 0
|
自然语言处理 监控 Java
测试NLP自学习平台商品评价解析
测试NLP自学习平台商品评价解析
139 0
测试NLP自学习平台商品评价解析
|
自然语言处理 算法 Java
NLP之相似语句识别
NLP之相似语句识别
187 0
NLP之相似语句识别
|
自然语言处理 Java 机器人
自然语言处理预训练模型商品评价解析服务-本地生活领域 Java SDK示例
自然语言处理(Natural Language Processing,简称NLP),是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,旨在帮助用户高效的处理文本,已经广泛应用在电商、文娱、司法、公安、金融、医疗、电力等行业客户的多项业务中,取得了良好的效果。可用于搭建内容搜索、内容推荐、舆情识别及分析、文本结构化、对话机器人等智能产品。NLP自学习平台提供了一些预训练的特定领域模型服务。例如:商品评价解析服务、新闻层次分类服务、中文简历抽取、英文简历抽取等,且无需自主标注训练,直接调用API即可使用。本文将使用Java SDK演示商品评价解析服务-本地生活领域的快速调用以供参考。
227 0