用于自然语言处理的数据集集锦-阿里云开发者社区

开发者社区> 【方向】> 正文

用于自然语言处理的数据集集锦

简介: 本文介绍了用于自然语言处理任务的标准数据集,在你研究深度学习的时候可以使用。
+关注继续查看

在开始研究自然语言处理深度学习的时候,你需要有数据集来练习编程。

最好使用小的数据集,因为下载速度比较快,并且不用花太长的时间来适应模型。此外,使用容易理解并且广泛使用的标准数据集也是有帮助的,这能让你对结果进行比较,看看自己是否取得了进展。

本文介绍了一套用于自然语言处理任务的标准数据集,在你研究深度学习的时候可以使用。

概述

本文分为7个部分,包括:

  1. 文本分类
  2. 语言建模
  3. 图像字幕
  4. 机器翻译
  5. 问题回答
  6. 语音识别
  7. 文档摘要

我提供了不少的数据集,它们在学术论文中的使用非常广泛。几乎所有的数据集都可以免费下载。

让我们开始吧。
Datasets for Natural Language Processing
用于自然语言处理的数据集

1. 文本分类

文本分类是指对语句或者文档打标签,例如电子邮件分类和情感分析。

下面是一些不错的的初级文本分类数据集。

要获取有关更多信息,请参阅文章:

2. 语言建模

语言建模涉及到开发一个统计模型,该模型用于预测语句中的下一个单词,或者单词中的下一个字母。它是语音识别和机器翻译的前置任务。

下面是一些不错的的初级语言建模数据集。

  • Gutenberg项目,一大批免费的书籍,可以用各种语言进行检索。

还有更多正式的语料库可以用来研究,例如:

3. 图像字幕

图像字幕是为给定图像生成一段文本描述。

下面是一些不错的初级图像字幕数据集。

要获取更多信息请阅读这篇文章:

4. 机器翻译

机器翻译是将文本从一种语言翻译成另一种语言。

下面是一些不错的初级机器翻译数据集。

还有大量用于年度机器翻译挑战赛的标准数据集:

5. 问题回答

问题回答是从问题中提供一个句子或文本样例,并回答这个问题。

下面是一些不错的初级问题回答数据集。

要获取更多信息请阅读这篇文章:

6. 语音识别

语音识别是将口语音频转换为人类可读的文本。

下面是一些不错的初级语音识别数据集。

7. 文档摘要

文档摘要是为文档创建一个简短而有意义的描述。

下面是一些不错的初级文档摘要数据集。

欲了解更多信息,请参看:

进一步阅读

如果你打算进一步学习,这里还提供了其他一些数据集。

小结

本文介绍了一组标准的数据集,在开始研究深度学习的时候,你可以使用这些标准数据集进行自然语言处理。

文章原标题《Datasets for Natural Language Processing》,作者:Jason Brownlee,译者:夏天,审校:主题曲。

文章为简译,更为详细的内容,请查看原文

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
ML之DR之PCA:利用PCA对手写数字图片识别数据集进行降维处理(理解PCA)
ML之DR之PCA:利用PCA对手写数字图片识别数据集进行降维处理(理解PCA)
16 0
《C++语言基础》实践项目——异常处理和命名空间
返回:贺老师课程教学链接 【项目1-平方根中的异常】 编写一个程序,求输入数的平方根。设置异常处理,当输入负数时采用异常处理机制给出提示。 [参考解答] 【项目2-有些数的阶乘不算了】 求n!的函数,当用户的输入为负数,以及输入数太大时(例如大于12),使用异常处理机制予以拒绝,并给出恰当的提示。 [参考解答] 【项目3-max带来的冲突】 分析下面程序出现的
825 0
独家 | 一文教你如何处理不平衡数据集(附代码)
本文作者用python代码示例解释了3种处理不平衡数据集的可选方法,包括数据层面上的2种重采样数据集方法和算法层面上的1个集成分类器方法。
1026 0
自然语言处理在开放搜索中的应用
构建搜索引擎的时候,都会遇到很多效果优化的问题,其中很多都和自然语言处理相关。本文通过结合开放搜索中NLP技术要点进行解读和分析。
8376 0
C语言及程序设计进阶例程-9 预处理之文件包含
贺老师教学链接  C语言及程序设计进阶 本课讲解 如何改造这个程序 #include <stdio.h> typedef struct{ int month; int year; }DATE; int max(int x, int y); #define area(a, b) (a)*(b) double defaultPrice; int main() { defa
886 0
SAS进阶《深入解析SAS》之对多数据集的处理
SAS进阶《深入解析SAS》之对多数据集的处理 1. 数据集的纵向串接: 数据集的纵向串接指的是,将两个或者多个数据集首尾相连,形成一个新的数据集。 据集的横向合并: 数据集的横向合并,指的是将两个或者多个数据集根据某种原则横向合并起来,形成新的数据集。 2. 数据集的纵向串接两种方法:1)使用SAS DATA步的SET语句。2)使用SAS过程步的APPEND过程。
1265 0
+关注
【方向】
欢迎各位对内容方向及质量提需求,我们尽量满足,将国外优质的内容呈现给大家!
707
文章
5
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载