用于自然语言处理的数据集集锦

简介: 本文介绍了用于自然语言处理任务的标准数据集,在你研究深度学习的时候可以使用。

在开始研究自然语言处理深度学习的时候,你需要有数据集来练习编程。

最好使用小的数据集,因为下载速度比较快,并且不用花太长的时间来适应模型。此外,使用容易理解并且广泛使用的标准数据集也是有帮助的,这能让你对结果进行比较,看看自己是否取得了进展。

本文介绍了一套用于自然语言处理任务的标准数据集,在你研究深度学习的时候可以使用。

概述

本文分为7个部分,包括:

  1. 文本分类
  2. 语言建模
  3. 图像字幕
  4. 机器翻译
  5. 问题回答
  6. 语音识别
  7. 文档摘要

我提供了不少的数据集,它们在学术论文中的使用非常广泛。几乎所有的数据集都可以免费下载。

让我们开始吧。
Datasets for Natural Language Processing
用于自然语言处理的数据集

1. 文本分类

文本分类是指对语句或者文档打标签,例如电子邮件分类和情感分析。

下面是一些不错的的初级文本分类数据集。

要获取有关更多信息,请参阅文章:

2. 语言建模

语言建模涉及到开发一个统计模型,该模型用于预测语句中的下一个单词,或者单词中的下一个字母。它是语音识别和机器翻译的前置任务。

下面是一些不错的的初级语言建模数据集。

  • Gutenberg项目,一大批免费的书籍,可以用各种语言进行检索。

还有更多正式的语料库可以用来研究,例如:

3. 图像字幕

图像字幕是为给定图像生成一段文本描述。

下面是一些不错的初级图像字幕数据集。

要获取更多信息请阅读这篇文章:

4. 机器翻译

机器翻译是将文本从一种语言翻译成另一种语言。

下面是一些不错的初级机器翻译数据集。

还有大量用于年度机器翻译挑战赛的标准数据集:

5. 问题回答

问题回答是从问题中提供一个句子或文本样例,并回答这个问题。

下面是一些不错的初级问题回答数据集。

要获取更多信息请阅读这篇文章:

6. 语音识别

语音识别是将口语音频转换为人类可读的文本。

下面是一些不错的初级语音识别数据集。

7. 文档摘要

文档摘要是为文档创建一个简短而有意义的描述。

下面是一些不错的初级文档摘要数据集。

欲了解更多信息,请参看:

进一步阅读

如果你打算进一步学习,这里还提供了其他一些数据集。

小结

本文介绍了一组标准的数据集,在开始研究深度学习的时候,你可以使用这些标准数据集进行自然语言处理。

文章原标题《Datasets for Natural Language Processing》,作者:Jason Brownlee,译者:夏天,审校:主题曲。

文章为简译,更为详细的内容,请查看原文

相关文章
|
存储 自然语言处理 数据可视化
Dataset:数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏,持续更新)
Dataset:数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏,持续更新)
|
19天前
|
机器学习/深度学习 自然语言处理 机器人
【Tensorflow+自然语言处理+RNN】实现中文译英文的智能聊天机器人实战(附源码和数据集 超详细)
【Tensorflow+自然语言处理+RNN】实现中文译英文的智能聊天机器人实战(附源码和数据集 超详细)
49 1
|
19天前
|
自然语言处理 机器人 数据库
【Python自然语言处理+tkinter图形化界面】实现智能医疗客服问答机器人实战(附源码、数据集、演示 超详细)
【Python自然语言处理+tkinter图形化界面】实现智能医疗客服问答机器人实战(附源码、数据集、演示 超详细)
94 2
|
19天前
|
机器学习/深度学习 自然语言处理 机器人
【Tensorflow+自然语言处理+LSTM】搭建智能聊天客服机器人实战(附源码、数据集和演示 超详细)
【Tensorflow+自然语言处理+LSTM】搭建智能聊天客服机器人实战(附源码、数据集和演示 超详细)
270 1
|
11月前
|
自然语言处理 PyTorch 算法框架/工具
|
机器学习/深度学习 人工智能 自然语言处理
华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白
华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白
185 0
|
机器学习/深度学习 人工智能 自然语言处理
【Pytorch神经网络理论篇】 36 NLP中常见的任务+BERT模型+发展阶段+数据集
是一种类似于卷积思想的网络。它通过矩阵相乘,计输入向量与目的输出之间的相似度,进而完成语义的理解。
284 0
|
自然语言处理 知识图谱
NLP数据集列表
NLP数据集列表
244 0
NLP数据集列表
|
机器学习/深度学习 存储 自然语言处理
动手学深度学习(十) NLP 语言模型与数据集
动手学深度学习(十) NLP 语言模型与数据集
327 0
|
机器学习/深度学习 人工智能 自然语言处理
这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献!
这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献!
170 0
这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献!