Dataset之IMDB影评数据集:IMDB影评数据集的简介、下载、使用方法之详细攻略

简介: Dataset之IMDB影评数据集:IMDB影评数据集的简介、下载、使用方法之详细攻略

IMDB影评数据集的简介


      标签数据集包含5万条IMDB影评,专门用于情绪分析。评论的情绪是二元的,这意味着IMDB评级< 5导致情绪得分为0,而评级>=7的情绪得分为1。没有哪部电影的评论超过30条。标有training set的2.5万篇影评不包括与2.5万篇影评测试集相同的电影。此外,还有另外5万篇IMDB影评没有任何评级标签。

    The labeled data set consists of 50,000 IMDB movie reviews, specially selected for sentiment analysis. The sentiment of reviews is binary, meaning the IMDB rating < 5 results in a sentiment score of 0, and rating >=7 have a sentiment score of 1. No individual movie has more than 30 reviews. The 25,000 review labeled training set does not include any of the same movies as the 25,000 review test set. In addition, there are another 50,000 IMDB reviews provided without any rating labels.


File descriptions


labeledTrainData - The labeled training set. The file is tab-delimited and has a header row followed by 25,000 rows containing an id, sentiment, and text for each review.  文件以制表符分隔,头行后面跟着25000行,每行包含id、情绪和文本。

testData - The test set. The tab-delimited file has a header row followed by 25,000 rows containing an id and text for each review. Your task is to predict the sentiment for each one. 测试集。以制表符分隔的文件有一个头行,后面是25,000行,其中包含每个检查的id和文本。你的任务是预测每个人的情绪。

unlabeledTrainData - An extra training set with no labels. The tab-delimited file has a header row followed by 50,000 rows containing an id and text for each review. 没有标签的额外训练集。以制表符分隔的文件有一个头行,后跟50,000行,其中包含每个审阅的id和文本。

sampleSubmission - A comma-delimited sample submission file in the correct format.以逗号分隔的示例提交文件,要求提交的格式必须正确。

Data fields


id - Unique ID of each review 每个评论的唯一id。

sentiment - Sentiment of the review; 1 for positive reviews and 0 for negative reviews 评论的情绪,正面评价为1、负面评价为0

review - Text of the review 评论的文本内容。




IMDB影评得分估计竞赛任务一共为参赛者提供了4份不同的数据文件,其中包括:

(1)、labeledTrainData.tsv:已经标有情感倾向的训练文件,里面有25000条影评以及对应的情感倾向标识。

(2)、sampleSubmission.csv:待测试文件,同样也另有25000条电影评论。

(3)、unlabeledTrainData.tsv:还有一份无标注但是数据量更大的影评文件。

(4)、sampleSubmission.csv:最后是一份样例文件,用来告知参赛者最终结果的提交格式。



IMDB影评数据集的下载


IMDB影评数据集下载https://download.csdn.net/download/qq_41185868/11012492





IMDB影评数据集的使用方法


更新ing


 


相关文章
|
算法 数据库 计算机视觉
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
Dataset之Boston:Boston波士顿房价数据集的简介、下载、使用方法之详细攻略
Dataset之Boston:Boston波士顿房价数据集的简介、下载、使用方法之详细攻略
|
1月前
|
机器学习/深度学习 自然语言处理 PyTorch
pytorch实战---IMDB情感分析
pytorch实战---IMDB情感分析
pytorch实战---IMDB情感分析
|
4月前
|
机器学习/深度学习 算法 Python
【Python机器学习】KNN进行水果分类和分类器实战(附源码和数据集)
【Python机器学习】KNN进行水果分类和分类器实战(附源码和数据集)
284 1
|
11月前
|
机器学习/深度学习 自然语言处理
(imdb数据集)电影评论分类实战:二分类问题
(imdb数据集)电影评论分类实战:二分类问题
|
机器学习/深度学习 数据采集 自然语言处理
中文电影数据集情感分类的torch网络,数据集下载地址
步骤如下: 1. 数据集:找到一个中文电影评论数据集,可以从以下网站下载: • https://www.aclweb.org/anthology/O18-2012/ • https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ChnSentiCorp_htl_all/intro.ipynb • 2. 数据预处理:将数据集分为训练集和测试集,并进行数据清洗、分词等预处理。 3. 构建模型:使用 PyTorch 框架构建一个情感分类模型,可以使用 LSTM 或 Transformer 等深度学习模型。 4. 5.
375 0
|
数据采集 自然语言处理 数据建模
《30天吃掉那只 TensorFlow2.0》 1-3 文本数据建模流程范例 (imdb电影评论分类问题)
《30天吃掉那只 TensorFlow2.0》 1-3 文本数据建模流程范例 (imdb电影评论分类问题)
《30天吃掉那只 TensorFlow2.0》 1-3 文本数据建模流程范例 (imdb电影评论分类问题)
|
机器学习/深度学习 算法 网络架构
Dataset之MNIST:MNIST(手写数字图片识别+csv文件)数据集简介、下载、使用方法之详细攻略
Dataset之MNIST:MNIST(手写数字图片识别+csv文件)数据集简介、下载、使用方法之详细攻略
Dataset之MNIST:MNIST(手写数字图片识别+csv文件)数据集简介、下载、使用方法之详细攻略
Dataset之Rotten Tomatoes:Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略
Dataset之Rotten Tomatoes:Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略
|
机器学习/深度学习 人工智能 资源调度
Dataset之RentListingInquries:RentListingInquries(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略
Dataset之RentListingInquries:RentListingInquries(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略
Dataset之RentListingInquries:RentListingInquries(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略