歧义代词数据集有以下公开数据集可以下载:
- Winograd模式挑战数据集 下载地址:https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WSCollection.xml
- GAP数据集 下载地址:https://github.com/google-research-datasets/gap-coreference
- OntoNotes 5.0数据集 下载地址:https://catalog.ldc.upenn.edu/LDC2013T19
你可以通过上述链接下载相应的数据集,每个数据集都有其独特的特点和用途。例如,Winograd模式挑战数据集可以用来测试自然语言推理,而GAP数据集主要用于消解代词消解。
除了上述提到的数据集之外,还有以下几个常用的歧义代词数据集:
- GAP Coreference Dataset: 该数据集包含2000个来自维基百科的句子,其中包含四种类型的歧义代词(A, B, P, NONE),用于指代男性、女性或组织名称。数据集提供标注信息,可用于判断歧义代词的指向。
- OntoNotes 5.0: 该数据集包含新闻、广播、谈话和网络语言等多个领域的数据,是一个广泛使用的语料库。其中包含关于指代消解的标注信息。
- Winograd Schema Challenge (WSC): WSC是一种歧义代词的解决任务,其中涉及到具有歧义的句子,需要根据上下文信息判断代词的指向。WSC提供了大量具有挑战性的样例,涵盖了多种语言和领域。
以上数据集都可以在相应的官方网站上进行下载。
以下是数据集官方网站:
- Winograd Schema Challenge: http://www.cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
- GAP: https://github.com/google-research-datasets/gap-coreference
- WinoBias: https://uwnlp.github.io/winobias/
- Definite Pronoun Resolution: https://github.com/mcdm/Winogender-Schemas
- PDP: https://cs.nyu.edu/~davise/papers/WinogradHLP14.pdf
- WiC: https://pilehvar.github.io/wic/
- DREAM: http://www.nyu.edu/projects/bowman/dream/
- COPA: https://people.ict.usc.edu/~gordon/copa.html
- SWAG: https://github.com/rowanz/swagaf
请注意,某些数据集可能已经更新或迁移,因此请确保从官方网站下载最新的数据集。
GAP Coreference Dataset的下载网站为:https://github.com/google-research-datasets/gap-coreference
OntoNotes 5.0的下载网站是LDC官方网站:https://catalog.ldc.upenn.edu/LDC2013T19。下载需要注册LDC账户并购买授权。
Winograd Schema Challenge (WSC)数据集的下载网站是:https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WSCollection.xml。