NLPer的福利,CCKS数据集大放送

在线体验各类最新模型,更有模型 免费Token 额度领取!
立即体验
简介: CCKS(China Conference on Knowledge Graph and Semantic Computing,全国知识图谱与语义计算大会)是国内知识图谱、语义技术、链接数据等领域的核心学术会议,聚集了知识表示、自然语言理解、知识获取、智能问答、链接数据、图数据库、图计算、自动推理等相关技术领域的专家、实践者和研究人员。

关于CCKS

CCKS(China Conference on Knowledge Graph and Semantic Computing,全国知识图谱与语义计算大会)是国内知识图谱、语义技术、链接数据等领域的核心学术会议,聚集了知识表示、自然语言理解、知识获取、智能问答、链接数据、图数据库、图计算、自动推理等相关技术领域的专家、实践者和研究人员。


CCKS每年举办的评测竞赛都会吸引大量的研究人员参加,2021的CCKS共发布了14个评测任务,为历年之最,更是创纪录地吸引了上万人报名参赛,可谓是盛况空前,让我们一起来康康天池数据集开放的CCKS数据集吧~


萌喵按照应用领域大家整理如下行业数据集,希望对大家有用。


地址领域

通讯地址广泛存在于物流、政府登记、金融、交通等领域。对通讯地址的分析、聚合服务已经是一项互联网重要基础服务,支撑着诸多应用场景,比如地图搜索、物流分析等。


阿里达摩院机器智能技术团队在CCKS2021大会发布的地址评测共包括两个数据集任务,分别是: “中文地址要素解析任务”和“地址文本相关性匹配任务”。本次开放的大规模标注语料是国内首个地址交通领域的标准数据集。数据集的推出一方面解决了中文地址领域缺乏标准评测数据集的现状,另一方面也希望推动地址分析技术的进步。

注:本次开放的标注数据集语料均源于公开的地址信息(如黄页网站等)


1. 中文地址要素解析数据集

研究方向:命名实体识别(NER)、信息抽取

地址要素解析是将地址文本拆分成独立语义的要素,并对这些要素进行类型识别的过程。中文地址要素解析任务的目标即将一条地址分解为几个部分的详细标签,举个栗子:


image.png


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=109339


2. 中文地址相关性数据集

研究方向:语义相似度、地址相关性

地址文本相关性主要是衡量地址间的相似程度,在现实世界中存在着广泛的应用场景,如:基于地理信息搜索的地理位置服务、对于突发事件位置信息的快速搜索定位、不同地址信息系统的对齐等等,具有很大的社会价值和商业价值。示例如下:


image.png


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=110146


金融领域

事件(event)是知识图谱的重要组成部分,事件抽取是进行图谱推理、事件分析的必要过程。


蚂蚁集团和中科院自动化所在CCKS2021大会发布的金融事件抽取评测任务包含2个数据集任务:“篇章级事件元素抽取任务”和“篇章级事件因果关系抽取任务”。

注:数据集的文本语料来自于互联网上的公开新闻、报告。


1. 金融领域事件因果关系抽取数据集

研究方向:事件因果关系抽取    

该数据集任务旨在从文本中抽取具有因果关系的两个事件:原因事件和结果事件,并通过事件的四要素(事件类型、影响地域、行业、产品)来表示原因事件和结果事件。举例如下:


image.png


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=110901


2. 金融领域篇章级事件元素抽取数据集

研究方向:事件元素抽取

事件通常用“事件类型”和“事件要素”来表示,该数据集任务旨在从给定的长文本中抽取出事件的13个要素(要素的定义详见数据集链接)。示例如下:


image.png


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=110904


保险领域

保险领域低资源文档信息抽取数据集

研究方向:结构化信息抽取

使用信息抽取技术从文档中挖掘大规模图谱知识已经成为了一个研究热点,然而当前信息抽取任务多关注于从无结构化文本中抽取知识,忽略了文档中丰富的格式信息。同时,在真实的业务场景下,文档级信息抽取标注数据的获取成本十分高昂,现有信息抽取方法在少量标注样本下的表现性能不佳,已经成为行业知识图谱规模化应用的主要瓶颈之一。


阿里巴巴小蜜团队和中国人寿在CCKS2021上组织的面向保险领域低资源文档信息抽取数据集就是在这样背景下产生的,希望助力中文文档信息抽取技术的发展。该数据集面向真实业务场景下的商业文档理解需求,提供保险领域的少量标注数据和大量无标注数据,示例如下:


image.png


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=110099


电信领域

运营商知识图谱推理问答数据集

研究方向:KBQA

当前知识图谱问答系统在简单句(单实体单属性)上已经取得比较好的效果,而在约束句:条件约束句、时间约束句,以及推理型问句:比较句、最值句、是否型问句以及问句中带有交集、并集和取反的问句等,其逻辑推理能力还有待提升。阿里巴巴小蜜团队与中移在线服务有限公司在CCKS2021上组织的运营商知识图谱推理问答数据集就是在这样背景下产生的,目标是促进复杂约束下KBQA技术的研究。


以电信运营商场景为例,比如:“不含彩铃的套餐有哪些?”、“支持长途漫游,价格低于100元的套餐有哪些?”、“神州行B套餐是5G套餐吗”等,这类需要推理的查询目前的问答系统难以回答。


输入样例:

q1: 流量日包的开通方式?

q2: 不含彩铃的套餐有哪些?

输出样例:

a1: “KTLLRB”

a2: “流量月包|流量年包”


数据集更多详情/下载数据集请戳:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=109340

相关文章
|
8月前
|
数据采集 人工智能 监控
[数据集]作弊行为检测数据集(1100张图片已划分)[目标检测]
基于视觉 AI 的作弊行为检测正逐渐走向成熟,从简单的屏幕监控、人工复查逐步迈向自动化、实时化与精准识别。本数据集的构建,旨在为研究者与开发者提供一套轻量但高价值的训练数据,使智能监考系统能更好地识别作弊动作,尤其是使用手机等严重违规行为。
639 49
[数据集]作弊行为检测数据集(1100张图片已划分)[目标检测]
|
人工智能 运维 数据可视化
阿里云百炼 MCP服务使用教程合集
阿里云百炼推出首个全生命周期MCP服务,支持一键部署、无需运维,具备高可用与低成本特点。该服务提供多类型供给、低成本托管及全链路工具兼容,帮助企业快速构建专属智能体。MCP(模型上下文协议)作为标准化开源协议,助力大模型与外部工具高效交互。教程涵盖简单部署、GitHub运营、数据分析可视化及文档自动化等场景,助您快速上手。欢迎加入阿里云百炼生态,共同推动AI技术发展!
9882 60
|
文字识别
【PDF提取全自动改名】如何批量提取PDF指定区域的文字内容,用内容批量给PDF命名或者导出表格,学会全自动解放双手
在生活和工作中,我们常需处理大量PDF文件,如银行单据、税收单据等。手动处理效率低下,而使用“咕嘎批量PDF多区域内容提取重命名导表格系统”可快速完成数千份文档的处理,大幅提高效率。该工具通过获取PDF各区域内容坐标,导入并处理文件,最终将信息提取至表格,并根据关键信息对PDF进行重命名,方便管理和查找。
2967 47
|
开发者
HarmonyOS Next快速入门:样式装饰器:@Styles和@Extend
本课程《HarmonyOS Next快速入门》专为初学者打造,涵盖HarmonyOS应用开发核心知识。详解@Styles与@Extend装饰器的使用,帮助开发者高效复用和扩展组件样式,提升代码简洁性与维护性。结合实例讲解stateStyles状态样式切换,助你快速掌握HarmonyOS界面开发技巧。点击学习视频教程,开启开发之旅!
401 0
|
SQL 运维 监控
WAF如何防御常见攻击?
【8月更文挑战第16天】
1088 1
|
人工智能 API 开发者
免费使用Kimi的API接口,kimi-free-api真香
今年AI应用兴起,各类智能体涌现,但API免费额度有限。为解决这一问题,GitHub上的[kimi-free-api](https://github.com/LLM-Red-Team/kimi-free-api)项目提供了方便,支持高速流式输出、多轮对话等,与ChatGPT接口兼容。此外,还有其他大模型的免费API转换项目,如跃问StepChat、阿里通义Qwen等。该项目可帮助用户免费体验,通过Docker-compose轻松部署。只需获取refresh_token,即可开始使用。这个开源项目促进了AI学习和开发,为探索AI潜力提供了新途径。
4627 3
|
机器学习/深度学习 人工智能 自然语言处理
EasyNLP集成K-Global Pointer算法,支持中文信息抽取
K-Global Pointer的技术解读,以及如何在EasyNLP框架中使⽤K-Global Pointer模型。
EasyNLP集成K-Global Pointer算法,支持中文信息抽取
|
域名解析 监控 网络协议
计算机网络:DHCP协议
DHCP,即动态主机配置协议(Dynamic Host Configuration Protocol),是一个广泛使用的网络管理协议,设计用于在IP网络中自动分配IP地址和其他重要的网络配置参数。
860 1
|
芯片
灌电流与拉电流的含义及电路解析
上拉电阻是用来解决总线驱动能力不足时提供电流的,一般说法是拉电流。下拉电阻是用来吸收电流的,也就是灌电流。在数字电路中,拉电流和灌电流是衡量电路输出驱动能力(注意:拉、灌都是对输出端而言的,所以是驱动能力)的参数。 在集成电路中,拉电流输出和灌电流输出是一个很重要的概念。 一、什么是拉电流 由于数字电路的输出只有高、低(0,1)两种电平值,高电平输出时,一般是输出端对负载提供电流,其提供电流的数值叫“拉电流”。例如在使用反向器作输出显示时,当输出端为高电平时才符合发光二极管正向连接的要求,但这种拉电流输出对于反向器只能输出零点几毫安的电流用这种方法想驱动二极管发光是不合理的(因发光二极管
995 2

热门文章

最新文章