R语言汽车口碑数据采集抓取、文本数据分词和词云可视化实现

简介: R语言汽车口碑数据采集抓取、文本数据分词和词云可视化实现


本文以R语言为工具,帮助客户对汽车网站的口碑数据进行抓取,并基于文本数据分词技术进行数据清理和统计点击文末“阅读原文”获取完整代码数据

相关视频

image.png

通过词频统计和词云可视化,对口碑中的关键词进行分析,挖掘出消费者对汽车的评价和需求,为汽车制造商和销售商提供重要的市场参考。

随着社会经济的不断发展,汽车已经成为人们日常生活中不可或缺的交通工具。汽车口碑对于消费者购车决策起着至关重要的作用,同时也是汽车制造商和销售商了解市场需求、改进产品质量和服务的重要依据。传统的汽车口碑调查方式往往需要耗费大量的人力物力,而网络上的汽车口碑数据正逐渐成为研究汽车市场和消费者需求的重要数据来源。然而,如何高效地获取和分析这些数据变得越来越重要。因此,本文利用R语言的数据抓取和文本数据分词技术,对汽车网站的口碑数据进行抓取和分析,旨在为汽车行业提供更准确、更快速的市场研究手段。

本文主要实现以下两个目标:

  • 基于R语言的数据抓取部分。这一部分里面所有的结果都要实现
  • 基于R语言的文本数据分词

在每一页评价内容的抓取中 , 依然使用 xpath SApply 函数,再输入特定的 XML 路径来抓取网页上的用户评价内容

library(RCurl)
 Also load the other required package.  
library("methods")  
xpath <- '//div[@class=\"co81\"]'  
  
url <-"www.chekb.com/suonata/koubei/"

27cea5f39c4ce193b630f372abf40aed.png


pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE,encoding="UTF-8")  
   pagetree  
   value <- getNodeSet(pagetree,xpath)  
   
  i <- length(value)                     统计满足条件的值个数,一般情况为1

读入数据

将需要分析的文本放入记事本中,保存到相应路径,并在R中打开。

head(lecture)

783037a608d813f86a7a59e8e3a866b8.png

数据清理

js

lecture$评价=gsub(pattern="[1|2|3|4|5|6|7|8|9|0]"," ",lecture$评价);        
lecture$评价=gsub(pattern="/"," ",lecture$评价);    
lecture$评价=gsub(pattern="!"," ",lecture$评价);
......

grepl 函数的 regexpr 函数、regmatches 函数,并结合正则表达式来匹配出“非灰色用户”的主页链接

grepl(pattern = "中国",x = lecture$网友)

分词+统计词频

word=lapply(X=words, FUN=stit, " ")  
v=table(unlist(word))

1b0f76d63ccad1b1c9120b6ecd5168b0.png

点击标题查阅往期内容


NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据



左右滑动查看更多

6b1c5fbaf59b0e92a09547308996b1a9.png

统计数据的频数

对词频进行排序table函数得到各词组的词频,最后运用 sort 函数让其按词频降序排列,生成文档词矩阵

创建数据框

d=data.frame(词汇=names(v), 词频=v)  
d

8d02335e0b52b4cb8689b26a6d41895f.png

过滤掉1个字的结果和词频小于100的结果。

筛选标准大家可以根据自己的需求进行修改。

d1=subet(d, nchar(as.charr(d$词汇))>1 & d$词.Freq>=2)



(2)设置字体类型和字体颜色

mycolors <- brewer.pal(12,"Paired")

(3)画出标签云

dcloud(d1$词汇,d1$词频.Freq,random.order=FALSE,random.color=TRUE,colors=mycolors,family="myFont")

58452b3e69267bd86646a20eb1aa3eb0.png

相关文章
|
4天前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
4天前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
4天前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
4天前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
4天前
|
机器学习/深度学习 人工智能 数据可视化
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
|
4天前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
4天前
利用R语言进行典型相关分析实战
利用R语言进行典型相关分析实战
|
4天前
|
机器学习/深度学习 算法
R语言分类回归分析考研热现象分析与考研意愿价值变现
R语言分类回归分析考研热现象分析与考研意愿价值变现
|
4天前
|
数据可视化 定位技术
R语言贝叶斯INLA空间自相关、混合效应、季节空间模型、SPDE、时空分析野生动物数据可视化
R语言贝叶斯INLA空间自相关、混合效应、季节空间模型、SPDE、时空分析野生动物数据可视化
|
4天前
|
机器学习/深度学习 数据可视化 算法
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为1
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为

热门文章

最新文章