歧义代词数据集有哪些公开数据集的下载方式

简介: Winograd Schema Challenge (WSC)数据集的下载网站是:https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WSCollection.xml。

歧义代词数据集有以下公开数据集可以下载:

  1. Winograd模式挑战数据集 下载地址:https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WSCollection.xml
  2. GAP数据集 下载地址:https://github.com/google-research-datasets/gap-coreference
  3. OntoNotes 5.0数据集 下载地址:https://catalog.ldc.upenn.edu/LDC2013T19

你可以通过上述链接下载相应的数据集,每个数据集都有其独特的特点和用途。例如,Winograd模式挑战数据集可以用来测试自然语言推理,而GAP数据集主要用于消解代词消解。


除了上述提到的数据集之外,还有以下几个常用的歧义代词数据集:

  1. GAP Coreference Dataset: 该数据集包含2000个来自维基百科的句子,其中包含四种类型的歧义代词(A, B, P, NONE),用于指代男性、女性或组织名称。数据集提供标注信息,可用于判断歧义代词的指向。
  2. OntoNotes 5.0: 该数据集包含新闻、广播、谈话和网络语言等多个领域的数据,是一个广泛使用的语料库。其中包含关于指代消解的标注信息。
  3. Winograd Schema Challenge (WSC): WSC是一种歧义代词的解决任务,其中涉及到具有歧义的句子,需要根据上下文信息判断代词的指向。WSC提供了大量具有挑战性的样例,涵盖了多种语言和领域。

以上数据集都可以在相应的官方网站上进行下载。


以下是数据集官方网站:

请注意,某些数据集可能已经更新或迁移,因此请确保从官方网站下载最新的数据集。



GAP Coreference Dataset的下载网站为:https://github.com/google-research-datasets/gap-coreference


OntoNotes 5.0的下载网站是LDC官方网站:https://catalog.ldc.upenn.edu/LDC2013T19。下载需要注册LDC账户并购买授权。


Winograd Schema Challenge (WSC)数据集的下载网站是:https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WSCollection.xml。




目录
相关文章
|
存储 数据采集 传感器
一文多图搞懂KITTI数据集下载及解析
一文多图搞懂KITTI数据集下载及解析
11068 2
一文多图搞懂KITTI数据集下载及解析
|
25天前
|
机器学习/深度学习 JSON 算法
语义分割笔记(二):DeepLab V3对图像进行分割(自定义数据集从零到一进行训练、验证和测试)
本文介绍了DeepLab V3在语义分割中的应用,包括数据集准备、模型训练、测试和评估,提供了代码和资源链接。
144 0
语义分割笔记(二):DeepLab V3对图像进行分割(自定义数据集从零到一进行训练、验证和测试)
|
3月前
|
数据采集 机器学习/深度学习 算法
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
|
6月前
|
人工智能 数据可视化
【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化
【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化
|
6月前
|
人工智能 机器人 数据挖掘
【python】电影评分数据集的分析(python实现)(源码+报告)【独一无二】
【python】电影评分数据集的分析(python实现)(源码+报告)【独一无二】
|
存储 缓存 人工智能
用于 LLM 的公开的数值数据
用于 LLM 的公开的数值数据
174 0
|
机器学习/深度学习 数据采集 自然语言处理
中文电影数据集情感分类的torch网络,数据集下载地址
步骤如下: 1. 数据集:找到一个中文电影评论数据集,可以从以下网站下载: • https://www.aclweb.org/anthology/O18-2012/ • https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ChnSentiCorp_htl_all/intro.ipynb • 2. 数据预处理:将数据集分为训练集和测试集,并进行数据清洗、分词等预处理。 3. 构建模型:使用 PyTorch 框架构建一个情感分类模型,可以使用 LSTM 或 Transformer 等深度学习模型。 4. 5.
518 0
|
自然语言处理
中英文语料公开数据集大全
中英文语料公开数据集大全
|
机器学习/深度学习
开挖扩散模型小动作,生成图像几乎原版复制训练数据,隐私要暴露了
开挖扩散模型小动作,生成图像几乎原版复制训练数据,隐私要暴露了
|
机器学习/深度学习 数据可视化 自动驾驶
分类器可视化解释StylEx:谷歌、MIT等找到了影响图像分类的关键属性
分类器可视化解释StylEx:谷歌、MIT等找到了影响图像分类的关键属性
119 0