决策树IMDB数据集电影评测分类

简介: 决策树IMDB数据集电影评测分类

决策树IMDB数据集电影评测分类(二分类问题)


1. 数据集讲解:

该数据集是IMDB电影数据集的一个子集,已经划分好了测试集和训练集,训练集包括25000条电影评论,测试集也有25000条,该数据集已经经过预处理,将每条评论的具体单词序列转化为词库里的整数序列,其中每个整数代表该单词在词库里的位置。例如,整数104代表该单词是词库的第104个单词。为实验简单,词库仅仅保留了10000个最常出现的单词,低频词汇被舍弃。每条评论都具有一个标签,0表示为负面评论,1表示为正面评论。


训练数据在train_data.txt文件下,每一行为一条评论,训练集标签在train_labels.txt文件下,每一行为一条评论的标签;测试数据在test_data.txt文件下,测试数据标签未给出。


2. 代码实现:

a) 取出数据集:

从txt中取出训练集与测试集:


with open("test/test_data.txt", "rb") as fr:
  test_data_n = [inst.decode().strip().split(' ') for inst in fr.readlines()]
  test_data = [[int(element) for element in line] for line in test_data_n]
test_data = np.array(test_data)


b) 数据处理:

对每条评论,先将其解码为英文单词,再键值颠倒,将整数索引映射为单词。


把整数序列编码为二进制序列。


最后把训练集标签向量化。


# 将某条评论解码为英文单词
word_index = imdb.get_word_index() # word_index是一个将单词映射为整数索引的字典
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
\# 键值颠倒,将整数索引映射为单词
decode_review = ' '.join(
  [reverse_word_index.get(i - 3, '?') for i in train_data[0]]
) 
\# 将评论解码
\# 注意,索引减去了3,因为0,1,2是为padding填充
\# "start sequence"序列开始,"unknow"未知词分别保留的索引
\# 将整数序列编码为二进制矩阵
def vectorize_sequences(sequences, dimension=10000):
  results = np.zeros((len(sequences), dimension)) # 创建一个形状为(len(sequences), dimension)的矩阵
  for i, sequence in enumerate(sequences):
    results[i, sequence] = 1 # 将results[i]的指定索引设为 1
  return results
x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)
\# 标签向量化
y_train = np.asarray(train_labels).astype('float32')


c) 建立决策树:

decision_tree_classifier = DecisionTreeClassifier()
decision_tree_classifier.fit(x_train, y_train)


d) 输出测试集上的预测结果:


将结果写入txt

decision_tree_output = decision_tree_classifier.predict(x_test)
des = decision_tree_output.astype(int)
np.savetxt('Text3_result.txt', des, fmt='%d', delimiter='\n')
print(decision_tree_output)


3. 参数调整:


使用设置max_depth控制树的深度,置random_state = 30 不变,使用for循环寻找,发现深度为25时,accuracy_score最大。



4. 实验结果:


分离出一部分作为测试集,在测试集上的accuracy_score不太理想:



考虑应该是决策树模型并不适合处理该问题。

目录
相关文章
|
机器学习/深度学习 数据采集 数据可视化
【数据分析与可视化】SKlearn主要功能和模块概述(图文解释 简单易懂)
【数据分析与可视化】SKlearn主要功能和模块概述(图文解释 简单易懂)
568 0
|
1月前
|
机器学习/深度学习 人工智能 算法
Google DeepMind新产物: 行星级卫星嵌入数据集(10m)光学+雷达+DEM+climate...
Google 推出 Earth Engine 卫星嵌入数据集,利用 AI 将一年的多源卫星数据压缩至每个 10 米像素,实现高效地理空间分析。基于 AlphaEarth Foundations 模型,该数据集提供 64 维嵌入向量,支持相似性搜索、变化检测、自动聚类和精准分类,助力环境研究与应用。
239 0
|
2月前
|
机器学习/深度学习 人工智能 监控
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
本系列文章深入讲解了从Seq2Seq、RNN到Transformer,再到GPT模型的关键技术原理与实现细节,帮助读者全面掌握Transformer及其在NLP中的应用。同时,通过一个房价预测的完整案例,介绍了算法工程师如何利用数据训练模型并解决实际问题,涵盖需求分析、数据收集、模型训练与部署等全流程。文章适合初学者和开发者学习AI基础与实战技能。
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
|
机器学习/深度学习 自然语言处理 数据可视化
BERT-IMDB电影评论情感分类实战:SwanLab可视化训练
这篇文章介绍了使用BERT模型进行IMDB电影评论情感分类的实战教程,涉及SwanLab、transformers和datasets库。作者提供了一键安装库的命令,并详细解释了每个库的作用。文章展示了如何加载BERT模型和IMDB数据集,以及如何利用SwanLab进行可视化训练。训练过程在SwanLab平台上进行,包括模型微调、指标记录和结果可视化。此外,还提供了完整代码、模型与数据集的下载链接,以及相关工具的GitHub仓库地址。
BERT-IMDB电影评论情感分类实战:SwanLab可视化训练
|
机器学习/深度学习 自然语言处理 PyTorch
pytorch实战---IMDB情感分析
pytorch实战---IMDB情感分析
pytorch实战---IMDB情感分析
|
9月前
|
搜索推荐 小程序 物联网
基于HarmonyOS 5.0的元服务:技术架构、应用场景与未来发展【探讨】
鸿蒙OS 5.0推出的元服务(Super Service)是一种创新的服务架构,旨在提供无缝的跨设备体验。它具备无感知启动、跨设备共享和智能推送等特点,适用于智能家居、车载系统、即时通讯等场景。与传统应用及微信小程序相比,元服务更轻量、跨平台能力强,且无需下载安装。未来,元服务将通过AI增强智能化,并扩展到更多行业,如智慧医疗、智能零售等,推动物联网和智慧城市的发展。然而,其发展仍面临平台依赖、隐私安全等挑战。
基于HarmonyOS 5.0的元服务:技术架构、应用场景与未来发展【探讨】
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer图解
Transformer 是一种在自然语言处理(NLP)领域广泛使用的模型架构该模型通过Self-Attention机制和位置编码技术替代传统的RNN结构,实现了并行处理和更有效的长距离依赖捕捉。Transformer主要由编码器(Encoder)和解码器(Decoder)两部分组成,其中编码器负责处理输入序列,解码器则基于编码器的输出生成目标序列。每一层的编码器和解码器内部均采用多头注意力机制(Multi-Head Attention)、前馈神经网络以及残差连接和归一化层,以增强模型的学习能力和稳定性。此外,位置编码的引入使得模型能够在处理无序的输入序列时保留词语的位置信息。
326 13
|
11月前
|
机器学习/深度学习 存储 自然语言处理
深度学习入门:循环神经网络------RNN概述,词嵌入层,循环网络层及案例实践!(万字详解!)
深度学习入门:循环神经网络------RNN概述,词嵌入层,循环网络层及案例实践!(万字详解!)
|
11月前
|
程序员 开发工具 git
腾讯自研Git客户端,助力每个人都可以轻松使用Git
腾讯自研Git客户端,助力每个人都可以轻松使用Git
227 0
|
机器学习/深度学习 数据采集 存储
数据集
【7月更文挑战第10天】数据集
1445 1