歧义代词数据集有哪些公开数据集的下载方式

简介: Winograd Schema Challenge (WSC)数据集的下载网站是:https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WSCollection.xml。

歧义代词数据集有以下公开数据集可以下载:

  1. Winograd模式挑战数据集 下载地址:https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WSCollection.xml
  2. GAP数据集 下载地址:https://github.com/google-research-datasets/gap-coreference
  3. OntoNotes 5.0数据集 下载地址:https://catalog.ldc.upenn.edu/LDC2013T19

你可以通过上述链接下载相应的数据集,每个数据集都有其独特的特点和用途。例如,Winograd模式挑战数据集可以用来测试自然语言推理,而GAP数据集主要用于消解代词消解。


除了上述提到的数据集之外,还有以下几个常用的歧义代词数据集:

  1. GAP Coreference Dataset: 该数据集包含2000个来自维基百科的句子,其中包含四种类型的歧义代词(A, B, P, NONE),用于指代男性、女性或组织名称。数据集提供标注信息,可用于判断歧义代词的指向。
  2. OntoNotes 5.0: 该数据集包含新闻、广播、谈话和网络语言等多个领域的数据,是一个广泛使用的语料库。其中包含关于指代消解的标注信息。
  3. Winograd Schema Challenge (WSC): WSC是一种歧义代词的解决任务,其中涉及到具有歧义的句子,需要根据上下文信息判断代词的指向。WSC提供了大量具有挑战性的样例,涵盖了多种语言和领域。

以上数据集都可以在相应的官方网站上进行下载。


以下是数据集官方网站:

请注意,某些数据集可能已经更新或迁移,因此请确保从官方网站下载最新的数据集。



GAP Coreference Dataset的下载网站为:https://github.com/google-research-datasets/gap-coreference


OntoNotes 5.0的下载网站是LDC官方网站:https://catalog.ldc.upenn.edu/LDC2013T19。下载需要注册LDC账户并购买授权。


Winograd Schema Challenge (WSC)数据集的下载网站是:https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WSCollection.xml。




目录
相关文章
|
存储 数据采集 传感器
一文多图搞懂KITTI数据集下载及解析
一文多图搞懂KITTI数据集下载及解析
11827 2
一文多图搞懂KITTI数据集下载及解析
|
机器学习/深度学习 数据采集 人工智能
|
3月前
|
机器学习/深度学习 JSON 算法
语义分割笔记(二):DeepLab V3对图像进行分割(自定义数据集从零到一进行训练、验证和测试)
本文介绍了DeepLab V3在语义分割中的应用,包括数据集准备、模型训练、测试和评估,提供了代码和资源链接。
510 0
语义分割笔记(二):DeepLab V3对图像进行分割(自定义数据集从零到一进行训练、验证和测试)
|
8月前
|
人工智能 算法 开发者
苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相
【5月更文挑战第9天】苹果开源大语言模型OpenELM,提升效率和准确性,参数仅为10亿时比OLMo准确度高2.36%。苹果首次公开训练全过程、权重、数据集和代码,增强研究透明度,支持在苹果设备上推理和微调,推动AI研究发展。但训练资源需求高和模型可解释性仍是挑战。论文链接:[arxiv.org/pdf/2404.14619.pdf](https://arxiv.org/pdf/2404.14619.pdf)
92 3
|
8月前
|
人工智能 数据可视化
【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化
【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化
|
XML JSON 算法
【数据集转换】VOC数据集转COCO数据集·代码实现+操作步骤
与VOC一个文件一个xml标注不同,COCO所有的目标框标注都是放在一个json文件中的。
1502 1
|
存储 缓存 人工智能
用于 LLM 的公开的数值数据
用于 LLM 的公开的数值数据
183 0
|
机器学习/深度学习 数据采集 自然语言处理
中文电影数据集情感分类的torch网络,数据集下载地址
步骤如下: 1. 数据集:找到一个中文电影评论数据集,可以从以下网站下载: • https://www.aclweb.org/anthology/O18-2012/ • https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ChnSentiCorp_htl_all/intro.ipynb • 2. 数据预处理:将数据集分为训练集和测试集,并进行数据清洗、分词等预处理。 3. 构建模型:使用 PyTorch 框架构建一个情感分类模型,可以使用 LSTM 或 Transformer 等深度学习模型。 4. 5.
592 0
|
自然语言处理
中英文语料公开数据集大全
中英文语料公开数据集大全
|
存储 负载均衡 计算机视觉
【训练Trick】让你在一张卡上训练1000万个id人脸数据集成为可能(附开源代码和论文链接)
【训练Trick】让你在一张卡上训练1000万个id人脸数据集成为可能(附开源代码和论文链接)
130 0