NLPer的福利,CCKS数据集大放送

本文涉及的产品
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
简介: CCKS(China Conference on Knowledge Graph and Semantic Computing,全国知识图谱与语义计算大会)是国内知识图谱、语义技术、链接数据等领域的核心学术会议,聚集了知识表示、自然语言理解、知识获取、智能问答、链接数据、图数据库、图计算、自动推理等相关技术领域的专家、实践者和研究人员。

关于CCKS

CCKS(China Conference on Knowledge Graph and Semantic Computing,全国知识图谱与语义计算大会)是国内知识图谱、语义技术、链接数据等领域的核心学术会议,聚集了知识表示、自然语言理解、知识获取、智能问答、链接数据、图数据库、图计算、自动推理等相关技术领域的专家、实践者和研究人员。


CCKS每年举办的评测竞赛都会吸引大量的研究人员参加,2021的CCKS共发布了14个评测任务,为历年之最,更是创纪录地吸引了上万人报名参赛,可谓是盛况空前,让我们一起来康康天池数据集开放的CCKS数据集吧~


萌喵按照应用领域大家整理如下行业数据集,希望对大家有用。


地址领域

通讯地址广泛存在于物流、政府登记、金融、交通等领域。对通讯地址的分析、聚合服务已经是一项互联网重要基础服务,支撑着诸多应用场景,比如地图搜索、物流分析等。


阿里达摩院机器智能技术团队在CCKS2021大会发布的地址评测共包括两个数据集任务,分别是: “中文地址要素解析任务”和“地址文本相关性匹配任务”。本次开放的大规模标注语料是国内首个地址交通领域的标准数据集。数据集的推出一方面解决了中文地址领域缺乏标准评测数据集的现状,另一方面也希望推动地址分析技术的进步。

注:本次开放的标注数据集语料均源于公开的地址信息(如黄页网站等)


1. 中文地址要素解析数据集

研究方向:命名实体识别(NER)、信息抽取

地址要素解析是将地址文本拆分成独立语义的要素,并对这些要素进行类型识别的过程。中文地址要素解析任务的目标即将一条地址分解为几个部分的详细标签,举个栗子:


image.png


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=109339


2. 中文地址相关性数据集

研究方向:语义相似度、地址相关性

地址文本相关性主要是衡量地址间的相似程度,在现实世界中存在着广泛的应用场景,如:基于地理信息搜索的地理位置服务、对于突发事件位置信息的快速搜索定位、不同地址信息系统的对齐等等,具有很大的社会价值和商业价值。示例如下:


image.png


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=110146


金融领域

事件(event)是知识图谱的重要组成部分,事件抽取是进行图谱推理、事件分析的必要过程。


蚂蚁集团和中科院自动化所在CCKS2021大会发布的金融事件抽取评测任务包含2个数据集任务:“篇章级事件元素抽取任务”和“篇章级事件因果关系抽取任务”。

注:数据集的文本语料来自于互联网上的公开新闻、报告。


1. 金融领域事件因果关系抽取数据集

研究方向:事件因果关系抽取    

该数据集任务旨在从文本中抽取具有因果关系的两个事件:原因事件和结果事件,并通过事件的四要素(事件类型、影响地域、行业、产品)来表示原因事件和结果事件。举例如下:


image.png


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=110901


2. 金融领域篇章级事件元素抽取数据集

研究方向:事件元素抽取

事件通常用“事件类型”和“事件要素”来表示,该数据集任务旨在从给定的长文本中抽取出事件的13个要素(要素的定义详见数据集链接)。示例如下:


image.png


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=110904


保险领域

保险领域低资源文档信息抽取数据集

研究方向:结构化信息抽取

使用信息抽取技术从文档中挖掘大规模图谱知识已经成为了一个研究热点,然而当前信息抽取任务多关注于从无结构化文本中抽取知识,忽略了文档中丰富的格式信息。同时,在真实的业务场景下,文档级信息抽取标注数据的获取成本十分高昂,现有信息抽取方法在少量标注样本下的表现性能不佳,已经成为行业知识图谱规模化应用的主要瓶颈之一。


阿里巴巴小蜜团队和中国人寿在CCKS2021上组织的面向保险领域低资源文档信息抽取数据集就是在这样背景下产生的,希望助力中文文档信息抽取技术的发展。该数据集面向真实业务场景下的商业文档理解需求,提供保险领域的少量标注数据和大量无标注数据,示例如下:


image.png


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=110099


电信领域

运营商知识图谱推理问答数据集

研究方向:KBQA

当前知识图谱问答系统在简单句(单实体单属性)上已经取得比较好的效果,而在约束句:条件约束句、时间约束句,以及推理型问句:比较句、最值句、是否型问句以及问句中带有交集、并集和取反的问句等,其逻辑推理能力还有待提升。阿里巴巴小蜜团队与中移在线服务有限公司在CCKS2021上组织的运营商知识图谱推理问答数据集就是在这样背景下产生的,目标是促进复杂约束下KBQA技术的研究。


以电信运营商场景为例,比如:“不含彩铃的套餐有哪些?”、“支持长途漫游,价格低于100元的套餐有哪些?”、“神州行B套餐是5G套餐吗”等,这类需要推理的查询目前的问答系统难以回答。


输入样例:

q1: 流量日包的开通方式?

q2: 不含彩铃的套餐有哪些?

输出样例:

a1: “KTLLRB”

a2: “流量月包|流量年包”


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=109340

相关文章
【yolo训练数据集】标注好的垃圾分类数据集共享
【yolo训练数据集】标注好的垃圾分类数据集共享
2290 137
【yolo训练数据集】标注好的垃圾分类数据集共享
|
2月前
|
PyTorch 算法框架/工具
数据集学习笔记(三):调用不同数据集获取trainloader和testloader
本文介绍了如何使用PyTorch框架调用CIFAR10数据集,并获取训练和测试的数据加载器(trainloader和testloader)。
43 4
数据集学习笔记(三):调用不同数据集获取trainloader和testloader
|
4月前
|
计算机视觉
数据集介绍
【8月更文挑战第9天】数据集介绍。
108 1
|
4月前
分割数据集,并对数据集进行预处理
【8月更文挑战第8天】分割数据集,并对数据集进行预处理。
39 1
|
5月前
|
机器学习/深度学习 数据采集 存储
数据集
【7月更文挑战第10天】数据集
360 1
|
5月前
|
机器学习/深度学习 自然语言处理 算法
什么是数据集的分类?
【7月更文挑战第10天】什么是数据集的分类?
622 1
|
XML 数据挖掘 数据格式
|
6月前
鸢尾花数据集分类问题(3)
鸢尾花数据集分类问题
36 2
|
6月前
|
机器学习/深度学习
鸢尾花数据集分类问题(2)
鸢尾花数据集分类问题
43 1
|
6月前
鸢尾花数据集分类问题(1)
鸢尾花数据集分类问题
43 1