机器学习 —— 使用机器学习进行情感分析 演示版(上)

简介: 机器学习 —— 使用机器学习进行情感分析 演示版


一、项目构想

       在现代互联网时代里,人们的意见、评论和建议已成为政治科学和企业的宝贵资源。借助现代技术,我们现在能够最有效地收集和分析此类数据。该项目通过机器学习应用于语言分析,即情感分析;情感分析是分析用户情感的过程。我们可以将他们的情绪分为正面,负面或中性。

       这是最受欢迎的机器学习项目之一。其背后的原因是每家公司都试图了解客户的情绪,如果客户满意,他们会留下来。该项目可能显示出减少客户流失的途径。

二、实现过程

数据集

  1. 首先,我们构建模型需要数据集,我们使用一个互联网电影数据库中的大量电影评论数据。下载链接: Sentiment Analysis (stanford.edu)

  2. 如上图所示,test和train目录下都有25000个数据集,分别在neg 与 pos文件夹下,代表负面(6分以下)和正面(6分以上)的评论。之后将我们的数据集进行处理,得到方便我们进行机器学习的CSV文件。

数据标注

  1. 导入包。Pyprind为进度条模块,用于实现处理进度可视化效果。

  2. 分别创建进度条、标签字典和一个列表,分别用于显示处理进度;表示正面和负面评论;以及存储每个评论的文本和标签。

  3. 通过遍历数据集中的‘pos’和‘neg’文件夹中的文件,将评论文本和标签添加到空列表中。

  4. 创建DataFrame,用于存储评论文本和标签。之后打乱顺序,以防影响学习效果。

  1. 将DataFrame保存为CSV文件,并打印开头的三个评论,检查是否正常运行。

  1. 结果

数据预处理

       我们有了原始的数据集。需要对数据进行预处理,该数据有两个问题需要解决:

       (1)数据集含有大量的HTML符号,要消去文本中的HTML符号。

       (2)要将文本数据转化为矩阵数据,以便进行机器学习。

       对于问题一,可以用正则表达式来进行对特定符号的剔除。

       正则表达式就是利用特殊符号构建的一种规则,将文本中符合这种规则的字符串提取或者消除的一种方式,在这里我们构建了符合HTML符号的一种规则,将HTML符号在我们的文本数据中进行剔除。

问题一解决过程

  1. 导入包。并读取数据。

  1. 导入正则表达式模块,并定义一个delete_html函数。

  1. 在函数中,re.sub()用于空格替换文本中的HTML标签。

  1. re.findall()用于在文本中查找表情符号,之后移除非字母数字字符,转换为小写,并将表情符号添加到文本中。

  1. 完整代码

  1. 对‘review’列中的每个文本应用delete_html函数。

问题二解决过程

  1. 通过词袋模型对文本数据进行编码,将其表示为数值型的特征向量。词袋模型,是用于自然语言处理和信息检索中的一种简单的文档表示方法。通过这一模型,一篇文档可以通过统计所有单词的数目来表示,这种方法不考虑语法和单词出现的先后顺序。
  2. 使用词袋模型,首先对文本数据进行词汇分割,这里利用文本中的空格进行分割。

  1. 导入PorterStemmer,对文本进行词干提取,并返回词干化后的单词列表。

  1. 数据中还有大量“无意义” 词汇,需要用一个预先规定的停用词集合,在数据集中进行剔除。所以要先导入nltk库,下载并导入停用词列表。

数据划分

       数据预处理之后,进行数据划分。将数据集划分为训练集和测试集。通常,大部分数据用于训练,另一部分用于测试模型的性能。

       如上图所示,将前1000划分为训练集,后1000划分为测试集

机器学习 —— 使用机器学习进行情感分析 演示版(下)https://developer.aliyun.com/article/1507861?spm=a2c6h.13148508.setting.19.1b484f0emHkERh


目录
相关文章
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
基于非英语数据集的图形机器学习和集成学习方法增强文本分类和文本情感分析
基于非英语数据集的图形机器学习和集成学习方法增强文本分类和文本情感分析 摘要 近年来,机器学习方法,特别是图学习方法,在自然语言处理领域,特别是文本分类任务中取得了巨大的成果。然而,许多这样的模型在不同语言的数据集上显示出有限的泛化能力。在本研究中,我们在非英语数据集(如波斯语Digikala数据集)上研究并阐述了图形机器学习方法,该方法由用户对文本分类任务的意见组成。更具体地说,我们研究了(Pars)BERT与各种图神经网络(GNN)架构(如GCN、GAT和GIN)的不同组合,并使用集成学习方法来处理某些知名的非英语数据集上的文本分类任务。我们的分析和结果表明,应用GNN模型可以更好地捕捉文
86 0
|
3月前
|
机器学习/深度学习 算法 Cloud Native
利用机器学习进行情感分析:从理论到实践云原生技术在现代软件开发中的应用与挑战
【5月更文挑战第31天】本文旨在深入探讨机器学习在情感分析领域的应用。首先,我们将解释什么是情感分析以及为什么它在今天的世界中如此重要。然后,我们将详细介绍几种主要的机器学习算法,包括决策树、随机森林和神经网络,以及它们如何被用于情感分析。最后,我们将通过一个实际的案例研究来展示这些理论在实践中的应用。
|
12天前
|
机器学习/深度学习 数据采集 自然语言处理
如何通过机器学习进行情感分析:一项深度技术探索
【8月更文挑战第7天】通过机器学习进行情感分析是一个复杂但充满潜力的过程。从数据准备到模型部署,每一步都需要精细设计和不断优化。随着技术的不断进步,我们有理由相信,情感分析将在更多领域发挥更大的作用,为人类社会带来更多的便利和价值。
52 12
|
2月前
|
机器学习/深度学习 算法 数据处理
【阿旭机器学习实战】【33】中文文本分类之情感分析--朴素贝叶斯、KNN、逻辑回归
【阿旭机器学习实战】【33】中文文本分类之情感分析--朴素贝叶斯、KNN、逻辑回归
|
3月前
|
机器学习/深度学习 自然语言处理 监控
利用机器学习进行情感分析:技术详解与实践
【5月更文挑战第13天】本文探讨了利用机器学习进行情感分析的方法,包括技术原理、常用算法和实践应用。情感分析涉及文本预处理(如清洗、分词和去除停用词)、特征提取(如词袋模型、TF-IDF和Word2Vec)及分类器训练(如朴素贝叶斯、SVM和RNN/LSTM)。常见情感分析算法有朴素贝叶斯、支持向量机和深度学习模型。实践中,情感分析应用于社交媒体监控、产品评论分析等领域。通过本文,读者可了解情感分析的基础知识及其应用价值。
|
3月前
|
机器学习/深度学习 存储 自然语言处理
机器学习 —— 使用机器学习进行情感分析 详细介绍版
机器学习 —— 使用机器学习进行情感分析 详细介绍版
138 1
|
3月前
|
机器学习/深度学习 数据采集 自然语言处理
机器学习 —— 使用机器学习进行情感分析 演示版(下)
机器学习 —— 使用机器学习进行情感分析 演示版(下)
77 1
|
3月前
|
机器学习/深度学习 数据采集 自然语言处理
利用机器学习进行情感分析:技术与应用
本文将探讨机器学习在情感分析领域的应用。首先,我们将介绍情感分析的基本概念和重要性。接着,我们将详细讨论如何使用机器学习技术进行情感分析,包括数据预处理、特征提取、模型训练和评估等步骤。最后,我们将展示一些实际的情感分析应用案例。
|
3月前
|
机器学习/深度学习 自然语言处理 算法
探索机器学习在情感分析中的应用
【4月更文挑战第11天】 随着人工智能技术的飞速发展,机器学习已经成为处理和理解自然语言的强大工具。本文将深入探讨机器学习模型如何应用于情感分析领域,解析从文本数据中提取情绪倾向的技术和流程。不同于传统的摘要方式,我们将直接进入主题,剖析算法细节,并讨论实际应用中的挑战与解决方案。
|
13天前
|
机器学习/深度学习 存储 人工智能
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
本文是关于2022-2023年知能科技公司机器学习算法工程师岗位的秋招笔试题,包括简答题和编程题,简答题涉及神经网络防止过拟合的方法、ReLU激活函数的使用原因以及条件概率计算,编程题包括路径行走时间计算和两车相向而行相遇时间问题。
35 2
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题

热门文章

最新文章