数据分享|R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化

2024-04-28 217

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据分享|R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化

支持向量机（SVM）是一种机器学习方法，基于结构风险最小化原则，即通过少量样本数据，得到尽可能多的样本数据（点击文末“阅读原文”获取完整代码数据）。

支持向量机对线性问题进行处理，能解决非线性分类问题。本文介绍了R语言中的 SVM工具箱及其支持向量机（SVM）方法，并将其应用于文本情感分析领域，结果表明，该方法是有效的。在此基础上，对文本挖掘新闻语料进行情感分类和词云可视化，从视觉上对文本进行情感分析。

语料是从yahoo Qimo上爬的新闻语料，一共49000篇（查看文末了解数据免费获取方式），每篇包含题目、新闻内容、评论、读者投票结果（投票选择依次为：实用，感人、开心、超扯、无聊、害怕、难过、火大）以及总投票个数。

数据概览

以第一个预料为例

对其分词提取关键词

library(jiebaR)
cutter = worker(type = "keywords", topn = 10)  
words = "1.txt"

查看工作目录下所有的文件

dir = list.files(".")

获取分类号

xx<-readLines(dir[i],encoding = "UTF-8")
## Warning in readLines(dir[i], encoding = "UTF-8"): 读'1.txt'时最后一行未遂
# xx<-readLines("2.txt",encoding = "UTF-8")  
  
class=strsplit(xx[length(xx)-1],split="#")[[1]][3]

词性分类

for(i in 1:10){
  cutter = worker(type = "keywords", topn = 10)

绘制词汇图

mycolors <- brewer.pal(8,"Dark2")#设置一个颜色系：
wordcloud(cutter_words,as.numeriter_words)),random.order=FAL

点击标题查阅往期内容

R语言对TWITTER推特数据进行文本挖掘

准备训练集和测试集

ntrain <- round(n*0.8) # 训练集  
tindex <- sample(n,ntrain) # 筛选测试集样本  
xtrain<-textdata[tindex,]  
xtest<-textdata[-tindex,]
#可视化  
plot(textdata[,c("classlist","X1")] ,pch=ifelse(istrain==1,1,2))

训练SVM

现在我们在训练集上使用来训练线性SVM

svm(classlist ~ . , textdata)

预测数据

predictedY <- predict(model, textdata)

数据分享|R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化

数据概览

以第一个预料为例

查看工作目录下所有的文件

获取分类号

词性分类

绘制词汇图

准备训练集和测试集

训练SVM

预测数据

预测的数据

查看分类混淆矩阵

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

数据分享|R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化

数据概览

以第一个预料为例

查看工作目录下所有的文件

获取分类号

词性分类

绘制词汇图

准备训练集和测试集

训练SVM

预测数据

预测的数据

查看分类混淆矩阵

热门文章

最新文章

相关课程

相关电子书