https://www.heywhale.com/home/competition/620b34ed28270b0017b823ad/content/3
1 赛题背景
京东商品标题包含了商品的大量关键信息,商品标题实体识别是NLP应用中的一项核心基础任务,能为多种下游场景所复用,从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。本赛题要求选手使用模型抽取出商品标题文本中的实体。
与传统的实体抽取不同,京东商品标题文本的实体密度高、实体粒度细,赛题具有特色性。
2 比赛数据
- 本赛题数据来源于特定类目的京东商品标题短文本,分为有标注样本和无标注样本,供选手选择使用。
- 数据格式:训练集数据每一行第一列为一个字符或空格(汉字、英文字母、数字、标点符号、特殊符号、空格),第二列为BIO形式的标签,两列以空格分隔。
- 两条标注样本之间以空行为分割。
- 训练集:有标注训练样本:4万条左右(包括验证集,不再单独提供验证集,由选手自己切分;总量根据baseline模型效果可能会稍作调整);无标注样本:100万条。
初赛A榜测试集:1万条(与训练样本格式相同,差异仅在于无标注)
初赛B榜测试集:1万条(与训练样本格式相同,差异仅在于无标注)
复赛测试集:1万条(与训练样本格式相同,差异仅在于无标注)
决赛测试集:1万条(与训练样本格式相同,差异仅在于无标注) - 标注样本示例:
👉点击下载样例(右键存储或者左键+Ctrl/command+S)
- 实体说明:
实体共有52种类型,均已经过脱敏处理,用数字代号1至54表示(不包含27和45);其中“O”为非实体。标签中“B”代表一个实体的开始,“I”代表一个实体的中间或者结尾。“-”后的数字代号表示该字符的实体类型。
值得注意的是实体不仅仅与实体词有关,而且与当前标题所售卖商品有关。举例说明,一个售卖产品为手机壳的商品标题中出现的“iPhone13”与售卖产品为手机的商品标题中出现的“iPhone13”为不同的实体标签。
3 数据下载
数据名称 | 数据描述 | 下载链接 |
数据样例 | 初赛训练集数据样例 | 👉🏻点击下载 |
** 4 提交要求**
选手针对测试数据提交预测结果文件,结果文件格式和标注样本完全一致(txt格式),每一行第一列为一个字符或空格(汉字、英文字母、数字、标点符号、特殊符号、空格),第二列为BIO形式的标签,两列以空格分隔,两条标注样本之间以空行为分割。
结果文件内容举例:
Image Name
👉点击下载样例(右键存储或者左键+Ctrl/command+S)
5 评测标准
本赛题采用实体级别的micro F1值作为排名依据。
记测试集真实标注实体结果为:G ={g1, g2, g3,…, gn}, 预测结果为S = {s1, s2, s3, …, sn},其中每个元素为实体词及其类型,按照在标题中出现的顺序排列。
Image Name
复赛阶段,将根据模型在单卡GPU(NVIDIA T4,或者同等算力的GPU卡)上的推理耗时对micro F1值进行惩罚:
1) 如果模型在单卡上单条数据的平均推理时间<math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>t</mi><mrow class="MJX-TeXAtom-ORD"><mi>i</mi><mi>n</mi><mi>f</mi><mi>e</mi><mi>r</mi><mi>e</mi><mi>n</mi><mi>c</mi><mi>e</mi></mrow></msub></math>小于360ms,不做惩罚;
2) 反之,如果<math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>t</mi><mrow class="MJX-TeXAtom-ORD"><mi>i</mi><mi>n</mi><mi>f</mi><mi>e</mi><mi>r</mi><mi>e</mi><mi>n</mi><mi>c</mi><mi>e</mi></mrow></msub></math>大于360ms,需要乘以一定的惩罚系数,具体如下:
Image Name
6 其他说明
- 允许使用外部数据,但在复赛开始前需要发布到赛题系统公开区;
- 不限制使用开源框架;
- 无标注数据提供给参赛者作为NLP预训练的选项;
- 参赛者在模型中可自行发挥进行标注格式转换,只需保证提交结果为BIO格式;
- 只允许产出一个模型;
- 复赛阶段,模型在单卡(NVIDIA T4,或者同等算力的GPU卡)上单条数据的推理时间要小于360ms,如果超过360ms,会根据推理耗时进行惩罚。