决策树IMDB数据集电影评测分类-阿里云开发者社区

决策树IMDB数据集电影评测分类

2023-02-21 232

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 决策树IMDB数据集电影评测分类

决策树IMDB数据集电影评测分类（二分类问题）

1. 数据集讲解：

该数据集是IMDB电影数据集的一个子集，已经划分好了测试集和训练集，训练集包括25000条电影评论，测试集也有25000条，该数据集已经经过预处理，将每条评论的具体单词序列转化为词库里的整数序列，其中每个整数代表该单词在词库里的位置。例如，整数104代表该单词是词库的第104个单词。为实验简单，词库仅仅保留了10000个最常出现的单词，低频词汇被舍弃。每条评论都具有一个标签，0表示为负面评论，1表示为正面评论。

训练数据在train_data.txt文件下，每一行为一条评论，训练集标签在train_labels.txt文件下，每一行为一条评论的标签；测试数据在test_data.txt文件下，测试数据标签未给出。

2. 代码实现：

a) 取出数据集：

从txt中取出训练集与测试集：

with open("test/test_data.txt", "rb") as fr:
  test_data_n = [inst.decode().strip().split(' ') for inst in fr.readlines()]
  test_data = [[int(element) for element in line] for line in test_data_n]
test_data = np.array(test_data)

b) 数据处理：

对每条评论，先将其解码为英文单词，再键值颠倒，将整数索引映射为单词。

把整数序列编码为二进制序列。

最后把训练集标签向量化。

# 将某条评论解码为英文单词
word_index = imdb.get_word_index() # word_index是一个将单词映射为整数索引的字典
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
\# 键值颠倒，将整数索引映射为单词
decode_review = ' '.join(
  [reverse_word_index.get(i - 3, '?') for i in train_data[0]]
) 
\# 将评论解码
\# 注意，索引减去了3，因为0,1,2是为padding填充
\# "start sequence"序列开始，"unknow"未知词分别保留的索引
\# 将整数序列编码为二进制矩阵
def vectorize_sequences(sequences, dimension=10000):
  results = np.zeros((len(sequences), dimension)) # 创建一个形状为(len(sequences), dimension)的矩阵
  for i, sequence in enumerate(sequences):
    results[i, sequence] = 1 # 将results[i]的指定索引设为 1
  return results
x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)
\# 标签向量化
y_train = np.asarray(train_labels).astype('float32')

c) 建立决策树：

decision_tree_classifier = DecisionTreeClassifier()
decision_tree_classifier.fit(x_train, y_train)

d) 输出测试集上的预测结果：

将结果写入txt

decision_tree_output = decision_tree_classifier.predict(x_test)
des = decision_tree_output.astype(int)
np.savetxt('Text3_result.txt', des, fmt='%d', delimiter='\n')
print(decision_tree_output)

3. 参数调整：

使用设置max_depth控制树的深度，置random_state = 30 不变，使用for循环寻找，发现深度为25时，accuracy_score最大。

4. 实验结果：

分离出一部分作为测试集，在测试集上的accuracy_score不太理想：

考虑应该是决策树模型并不适合处理该问题。

决策树IMDB数据集电影评测分类

决策树IMDB数据集电影评测分类（二分类问题）

1. 数据集讲解：

2. 代码实现：

a) 取出数据集：

b) 数据处理：

c) 建立决策树：

d) 输出测试集上的预测结果：

3. 参数调整：

4. 实验结果：

热门文章

最新文章

相关课程

相关电子书

相关实验场景