NLPer的福利,CCKS数据集大放送

简介: CCKS(China Conference on Knowledge Graph and Semantic Computing,全国知识图谱与语义计算大会)是国内知识图谱、语义技术、链接数据等领域的核心学术会议,聚集了知识表示、自然语言理解、知识获取、智能问答、链接数据、图数据库、图计算、自动推理等相关技术领域的专家、实践者和研究人员。

关于CCKS

CCKS(China Conference on Knowledge Graph and Semantic Computing,全国知识图谱与语义计算大会)是国内知识图谱、语义技术、链接数据等领域的核心学术会议,聚集了知识表示、自然语言理解、知识获取、智能问答、链接数据、图数据库、图计算、自动推理等相关技术领域的专家、实践者和研究人员。


CCKS每年举办的评测竞赛都会吸引大量的研究人员参加,2021的CCKS共发布了14个评测任务,为历年之最,更是创纪录地吸引了上万人报名参赛,可谓是盛况空前,让我们一起来康康天池数据集开放的CCKS数据集吧~


萌喵按照应用领域大家整理如下行业数据集,希望对大家有用。


地址领域

通讯地址广泛存在于物流、政府登记、金融、交通等领域。对通讯地址的分析、聚合服务已经是一项互联网重要基础服务,支撑着诸多应用场景,比如地图搜索、物流分析等。


阿里达摩院机器智能技术团队在CCKS2021大会发布的地址评测共包括两个数据集任务,分别是: “中文地址要素解析任务”和“地址文本相关性匹配任务”。本次开放的大规模标注语料是国内首个地址交通领域的标准数据集。数据集的推出一方面解决了中文地址领域缺乏标准评测数据集的现状,另一方面也希望推动地址分析技术的进步。

注:本次开放的标注数据集语料均源于公开的地址信息(如黄页网站等)


1. 中文地址要素解析数据集

研究方向:命名实体识别(NER)、信息抽取

地址要素解析是将地址文本拆分成独立语义的要素,并对这些要素进行类型识别的过程。中文地址要素解析任务的目标即将一条地址分解为几个部分的详细标签,举个栗子:


image.png


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=109339


2. 中文地址相关性数据集

研究方向:语义相似度、地址相关性

地址文本相关性主要是衡量地址间的相似程度,在现实世界中存在着广泛的应用场景,如:基于地理信息搜索的地理位置服务、对于突发事件位置信息的快速搜索定位、不同地址信息系统的对齐等等,具有很大的社会价值和商业价值。示例如下:


image.png


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=110146


金融领域

事件(event)是知识图谱的重要组成部分,事件抽取是进行图谱推理、事件分析的必要过程。


蚂蚁集团和中科院自动化所在CCKS2021大会发布的金融事件抽取评测任务包含2个数据集任务:“篇章级事件元素抽取任务”和“篇章级事件因果关系抽取任务”。

注:数据集的文本语料来自于互联网上的公开新闻、报告。


1. 金融领域事件因果关系抽取数据集

研究方向:事件因果关系抽取    

该数据集任务旨在从文本中抽取具有因果关系的两个事件:原因事件和结果事件,并通过事件的四要素(事件类型、影响地域、行业、产品)来表示原因事件和结果事件。举例如下:


image.png


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=110901


2. 金融领域篇章级事件元素抽取数据集

研究方向:事件元素抽取

事件通常用“事件类型”和“事件要素”来表示,该数据集任务旨在从给定的长文本中抽取出事件的13个要素(要素的定义详见数据集链接)。示例如下:


image.png


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=110904


保险领域

保险领域低资源文档信息抽取数据集

研究方向:结构化信息抽取

使用信息抽取技术从文档中挖掘大规模图谱知识已经成为了一个研究热点,然而当前信息抽取任务多关注于从无结构化文本中抽取知识,忽略了文档中丰富的格式信息。同时,在真实的业务场景下,文档级信息抽取标注数据的获取成本十分高昂,现有信息抽取方法在少量标注样本下的表现性能不佳,已经成为行业知识图谱规模化应用的主要瓶颈之一。


阿里巴巴小蜜团队和中国人寿在CCKS2021上组织的面向保险领域低资源文档信息抽取数据集就是在这样背景下产生的,希望助力中文文档信息抽取技术的发展。该数据集面向真实业务场景下的商业文档理解需求,提供保险领域的少量标注数据和大量无标注数据,示例如下:


image.png


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=110099


电信领域

运营商知识图谱推理问答数据集

研究方向:KBQA

当前知识图谱问答系统在简单句(单实体单属性)上已经取得比较好的效果,而在约束句:条件约束句、时间约束句,以及推理型问句:比较句、最值句、是否型问句以及问句中带有交集、并集和取反的问句等,其逻辑推理能力还有待提升。阿里巴巴小蜜团队与中移在线服务有限公司在CCKS2021上组织的运营商知识图谱推理问答数据集就是在这样背景下产生的,目标是促进复杂约束下KBQA技术的研究。


以电信运营商场景为例,比如:“不含彩铃的套餐有哪些?”、“支持长途漫游,价格低于100元的套餐有哪些?”、“神州行B套餐是5G套餐吗”等,这类需要推理的查询目前的问答系统难以回答。


输入样例:

q1: 流量日包的开通方式?

q2: 不含彩铃的套餐有哪些?

输出样例:

a1: “KTLLRB”

a2: “流量月包|流量年包”


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=109340

相关文章
|
12月前
|
文字识别
【PDF提取全自动改名】如何批量提取PDF指定区域的文字内容,用内容批量给PDF命名或者导出表格,学会全自动解放双手
在生活和工作中,我们常需处理大量PDF文件,如银行单据、税收单据等。手动处理效率低下,而使用“咕嘎批量PDF多区域内容提取重命名导表格系统”可快速完成数千份文档的处理,大幅提高效率。该工具通过获取PDF各区域内容坐标,导入并处理文件,最终将信息提取至表格,并根据关键信息对PDF进行重命名,方便管理和查找。
1981 2
|
Web App开发 Go iOS开发
【IOS】教你如何在手机端轻松安装 ipa 文件 -(安装器已失效 21.10)
【IOS】教你如何在手机端轻松安装 ipa 文件 -(安装器已失效 21.10)
|
机器学习/深度学习 PyTorch 算法框架/工具
数据平衡与采样:使用 DataLoader 解决类别不平衡问题
【8月更文第29天】在机器学习项目中,类别不平衡问题非常常见,特别是在二分类或多分类任务中。当数据集中某个类别的样本远少于其他类别时,模型可能会偏向于预测样本数较多的类别,导致少数类别的预测性能较差。为了解决这个问题,可以采用不同的策略来平衡数据集,包括过采样(oversampling)、欠采样(undersampling)以及合成样本生成等方法。本文将介绍如何利用 PyTorch 的 `DataLoader` 来处理类别不平衡问题,并给出具体的代码示例。
3029 2
|
数据采集 人工智能 自然语言处理
领域知识图谱的医生推荐系统:利用BERT+CRF+BiLSTM的医疗实体识别,建立医学知识图谱,建立知识问答系统
领域知识图谱的医生推荐系统:利用BERT+CRF+BiLSTM的医疗实体识别,建立医学知识图谱,建立知识问答系统
领域知识图谱的医生推荐系统:利用BERT+CRF+BiLSTM的医疗实体识别,建立医学知识图谱,建立知识问答系统
|
机器学习/深度学习 搜索推荐 数据挖掘
DocEE:一种用于文档级事件抽取的大规模细粒度基准 论文解读
事件抽取旨在识别一个事件,然后抽取参与该事件的论元。尽管在句子级事件抽取方面取得了巨大的成功,但事件更自然地以文档的形式呈现,事件论元分散在多个句子中。
525 0
|
机器学习/深度学习 数据采集 自然语言处理
如何使用深度学习模型来提高命名实体识别的准确率
如何使用深度学习模型来提高命名实体识别的准确率
245 5
|
JSON 数据格式 Python
6-1|Python如何将json转化为字符串写到文件内 还保留json格式
6-1|Python如何将json转化为字符串写到文件内 还保留json格式
|
存储 SQL 人工智能
从零开始搭建医药领域知识图谱实现智能问答与分析服务(含码源):含Neo4j基于垂直网站数据的医药知识图谱构建、医药知识图谱的自动问答等
从零开始搭建医药领域知识图谱实现智能问答与分析服务(含码源):含Neo4j基于垂直网站数据的医药知识图谱构建、医药知识图谱的自动问答等
从零开始搭建医药领域知识图谱实现智能问答与分析服务(含码源):含Neo4j基于垂直网站数据的医药知识图谱构建、医药知识图谱的自动问答等
|
达摩院 语音技术 异构计算
语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
|
机器学习/深度学习 人工智能 自然语言处理
EasyNLP集成K-Global Pointer算法,支持中文信息抽取
K-Global Pointer的技术解读,以及如何在EasyNLP框架中使⽤K-Global Pointer模型。
EasyNLP集成K-Global Pointer算法,支持中文信息抽取