用Rapidminer做文本挖掘的应用:情感分析

简介: 用Rapidminer做文本挖掘的应用:情感分析

情感分析或观点挖掘是文本分析的一种应用,用于识别和提取源数据中的主观信息。

 

情感分析的基本任务是将文档,句子或实体特征中表达的观点分类为肯定或否定。本教程介绍了Rapidminer中情感分析的用法。此处提供的示例给出了电影列表及其评论,例如“  正面”  或“  负面”。该程序实现了Precision and Recall方法。  精度  是(随机选择的)检索文档相关的概率。 召回  是在搜索中检索到(随机选择的)相关文档的概率。高  召回率  意味着算法返回了大多数相关结果。精度高  表示算法返回的相关结果多于不相关的结果。

首先,对某部电影进行正面和负面评论。然后,单词以不同的极性(正负)存储。矢量单词表和模型均已创建。然后,将所需的电影列表作为输入。模型将给定电影列表中的每个单词与先前存储的具有不同极性的单词进行比较。电影评论是根据极性下出现的大多数单词来估算的。例如,当查看Django Unchained时,会将评论与开头创建的矢量单词表进行比较。最多的单词属于正极性。因此结果是肯定的。负面结果也是如此。

进行此分析的第一步是从数据中处理文档,即提取电影的正面和负面评论并将其以不同极性存储。该模型如图1所示。

图1

在“处理文档”下,单击右侧的“编辑列表”。在不同的类名称“ Positive”和“ Negative”下加载肯定和否定评论。

图2

在Process Document运算符下,发生嵌套操作,例如对单词进行标记,过滤停止单词。

然后使用两个运算符,例如Store和Validation运算符,如图1所示。Store运算符用于将字向量输出到我们选择的文件和目录中。验证算子(交叉验证)是评估统计模型准确性和有效性的一种标准方法。我们的数据集分为两个部分,一个训练集和一个测试集。仅在训练集上训练模型,并在测试集上评估模型的准确性。重复n次。双击验证运算符。将有两个面板-培训和测试。在“训练”面板下,使用了线性支持向量机(SVM),这是一种流行的分类器集,因为该函数是所有输入变量的线性组合。为了测试模型,我们使用“应用模型”运算符将训练集应用于我们的测试集。为了测量模型的准确性,我们使用“ Performance”运算符。

然后运行模型。类召回率%和精度%的结果如图5所示。模型和向量单词表存储在存储库中。

图5

然后从之前存储的存储库中检索模型和矢量单词表。然后从检索单词列表连接到图6所示的流程文档操作符。

然后单击“流程文档”运算符,然后单击右侧的编辑列表。这次,我从网站添加了5条电影评论的列表,并将其存储在目录中。为类名称分配未标记的名称,如图7所示。

Apply Model运算符从Retrieve运算符中获取一个模型,并从Process文档中获取未标记的数据作为输入,然后将所应用的模型输出到“实验室”端口,因此将其连接到“ res”(结果)端口。结果如下所示。当您查看《悲惨世界》时,有86.4%的人认为它是正面的,而13.6%的人认为是负面的,这是因为评论与正极性词表的匹配度高于负面。  

图8

相关文章
|
11月前
|
机器学习/深度学习 自然语言处理 数据挖掘
Python数据分析中文本分析的重要技术点,包括文本预处理、特征提取、情感分析
Python数据分析中文本分析的重要技术点,包括文本预处理、特征提取、情感分析
162 1
Python数据分析中文本分析的重要技术点,包括文本预处理、特征提取、情感分析
|
1月前
|
机器学习/深度学习 数据采集 自然语言处理
利用机器学习进行文本情感分析
【10月更文挑战第4天】本文将介绍如何使用机器学习技术对文本进行情感分析,包括预处理、特征提取、模型训练和结果评估等步骤。我们将使用Python编程语言和scikit-learn库来实现一个简单的情感分析模型,并对模型的性能进行评估。
|
3月前
|
机器学习/深度学习 数据采集 监控
【NLP-新闻文本分类】2特征工程
本文讨论了特征工程的重要性和处理流程,强调了特征工程在机器学习中的关键作用,并概述了特征工程的步骤,包括数据预处理、特征提取、特征处理、特征选择和特征监控。
31 1
|
6月前
|
机器学习/深度学习 数据采集 自然语言处理
使用R语言进行文本挖掘和自然语言处理
【4月更文挑战第26天】R语言在文本挖掘和自然语言处理(NLP)中扮演重要角色,得益于其强大的统计分析功能、灵活的数据处理和丰富的扩展包。活跃的社区开发了如"tm"、"SnowballC"、"text2vec"、"topicmodels"和"syuzhet"等包,支持数据预处理、向量化、主题建模和情感分析。
52 1
|
6月前
|
自然语言处理 Python
使用Python实现文本分类与情感分析模型
使用Python实现文本分类与情感分析模型
100 1
|
6月前
|
自然语言处理 数据可视化 Python
NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据
NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据
|
6月前
|
自然语言处理 数据可视化
R语言自然语言处理NLP:情感分析上市公司文本信息知识发现可视化
R语言自然语言处理NLP:情感分析上市公司文本信息知识发现可视化
|
6月前
|
机器学习/深度学习 数据采集 自然语言处理
利用Python实现基于自然语言处理的情感分析
本文将介绍如何利用Python编程语言,结合自然语言处理技术,实现情感分析。通过对文本数据进行情感分析,可以帮助我们了解用户对产品、服务或事件的情感倾向,为市场调研和舆情分析提供有力支持。文章将涵盖文本预处理、情感词典构建以及情感分析模型的搭建与应用等内容,旨在帮助读者深入理解情感分析的原理和实践应用。
|
6月前
|
存储 机器学习/深度学习 自然语言处理
R语言自然语言处理(NLP):情感分析新闻文本数据
R语言自然语言处理(NLP):情感分析新闻文本数据
|
6月前
|
机器学习/深度学习 自然语言处理 算法
探索机器学习在情感分析中的应用
【4月更文挑战第11天】 随着人工智能技术的飞速发展,机器学习已经成为处理和理解自然语言的强大工具。本文将深入探讨机器学习模型如何应用于情感分析领域,解析从文本数据中提取情绪倾向的技术和流程。不同于传统的摘要方式,我们将直接进入主题,剖析算法细节,并讨论实际应用中的挑战与解决方案。