用于自然语言处理的数据集集锦-阿里云开发者社区

开发者社区> 【方向】> 正文

用于自然语言处理的数据集集锦

简介: 本文介绍了用于自然语言处理任务的标准数据集,在你研究深度学习的时候可以使用。
+关注继续查看

在开始研究自然语言处理深度学习的时候,你需要有数据集来练习编程。

最好使用小的数据集,因为下载速度比较快,并且不用花太长的时间来适应模型。此外,使用容易理解并且广泛使用的标准数据集也是有帮助的,这能让你对结果进行比较,看看自己是否取得了进展。

本文介绍了一套用于自然语言处理任务的标准数据集,在你研究深度学习的时候可以使用。

概述

本文分为7个部分,包括:

  1. 文本分类
  2. 语言建模
  3. 图像字幕
  4. 机器翻译
  5. 问题回答
  6. 语音识别
  7. 文档摘要

我提供了不少的数据集,它们在学术论文中的使用非常广泛。几乎所有的数据集都可以免费下载。

让我们开始吧。
Datasets for Natural Language Processing
用于自然语言处理的数据集

1. 文本分类

文本分类是指对语句或者文档打标签,例如电子邮件分类和情感分析。

下面是一些不错的的初级文本分类数据集。

要获取有关更多信息,请参阅文章:

2. 语言建模

语言建模涉及到开发一个统计模型,该模型用于预测语句中的下一个单词,或者单词中的下一个字母。它是语音识别和机器翻译的前置任务。

下面是一些不错的的初级语言建模数据集。

  • Gutenberg项目,一大批免费的书籍,可以用各种语言进行检索。

还有更多正式的语料库可以用来研究,例如:

3. 图像字幕

图像字幕是为给定图像生成一段文本描述。

下面是一些不错的初级图像字幕数据集。

要获取更多信息请阅读这篇文章:

4. 机器翻译

机器翻译是将文本从一种语言翻译成另一种语言。

下面是一些不错的初级机器翻译数据集。

还有大量用于年度机器翻译挑战赛的标准数据集:

5. 问题回答

问题回答是从问题中提供一个句子或文本样例,并回答这个问题。

下面是一些不错的初级问题回答数据集。

要获取更多信息请阅读这篇文章:

6. 语音识别

语音识别是将口语音频转换为人类可读的文本。

下面是一些不错的初级语音识别数据集。

7. 文档摘要

文档摘要是为文档创建一个简短而有意义的描述。

下面是一些不错的初级文档摘要数据集。

欲了解更多信息,请参看:

进一步阅读

如果你打算进一步学习,这里还提供了其他一些数据集。

小结

本文介绍了一组标准的数据集,在开始研究深度学习的时候,你可以使用这些标准数据集进行自然语言处理。

文章原标题《Datasets for Natural Language Processing》,作者:Jason Brownlee,译者:夏天,审校:主题曲。

文章为简译,更为详细的内容,请查看原文

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
ML之DT:基于DT决策树算法(对比是否经特征筛选FS处理)对Titanic(泰坦尼克号)数据集进行二分类预测
ML之DT:基于DT决策树算法(对比是否经特征筛选FS处理)对Titanic(泰坦尼克号)数据集进行二分类预测
26 0
ML之SVM:利用SVM算法对手写数字图片识别数据集(PCA降维处理)进行预测并评估模型(两种算法)性能
ML之SVM:利用SVM算法对手写数字图片识别数据集(PCA降维处理)进行预测并评估模型(两种算法)性能
18 0
ML之DR之PCA:利用PCA对手写数字图片识别数据集进行降维处理(理解PCA)
ML之DR之PCA:利用PCA对手写数字图片识别数据集进行降维处理(理解PCA)
16 0
《C++语言基础》程序阅读——异常处理和命名空间
返回:贺老师课程教学链接 阅读下面的程序,写出输出结果 (1) #include <iostream > using namespace std; int a[10]= {1,2, 3, 4, 5, 6, 7, 8, 9, 10}; int fun( int i); int main() { int i ,s=0; for( i=0; i
818 0
独家 | 一文教你如何处理不平衡数据集(附代码)
本文作者用python代码示例解释了3种处理不平衡数据集的可选方法,包括数据层面上的2种重采样数据集方法和算法层面上的1个集成分类器方法。
975 0
C语言及程序设计进阶例程-9 预处理之文件包含
贺老师教学链接  C语言及程序设计进阶 本课讲解 如何改造这个程序 #include <stdio.h> typedef struct{ int month; int year; }DATE; int max(int x, int y); #define area(a, b) (a)*(b) double defaultPrice; int main() { defa
853 0
自然语言处理在开放搜索中的应用
构建搜索引擎的时候,都会遇到很多效果优化的问题,其中很多都和自然语言处理相关。本文通过结合开放搜索中NLP技术要点进行解读和分析。
7319 0
+关注
【方向】
欢迎各位对内容方向及质量提需求,我们尽量满足,将国外优质的内容呈现给大家!
696
文章
5
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载