R语言文本挖掘:twitter推特LDA主题情感分析

简介: R语言文本挖掘:twitter推特LDA主题情感分析

相关视频

image.png

根据这个背景,tecdat对素有“塞上江南”之称的宁夏热门推文(hot tweet,推特中的热门推文是指被转推或被收藏过的推文,相比普通推文影响力更大)进行了分析。

研究人员发现网友们关注的主题,同时倾听大家呈现出来的态度及情感。根据对135,592条推特用户自主在线发布消息的分析,我们发现了一些值得注意的内容。


▍“消费购物” 成为关注度最高主题, 超过十分之一的推文与饮食有关

可以看到,热门推文中有关的主题有4个,根据场景的不同分别为“消费购物”、“工业经济”、“健康养生”、“休闲生活”。有关消费购物的推文所占比例最高,推特用户中最关心的宁夏议题是消费购物。

a4a49f416bddadf845639637e3819b76.jpg

属于消费购物类的主题包括Market, oilsoil,food,wolf berries,drinking,wine,共6项,所占比例为32.6%;

f07be6782783a8e5f20f8fe81d0415cf.jpg

属于工业经济的包括energy, automous ,industry, coal , province等5个主题, 所占比例为26.4%。


点击标题查阅往期内容


R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

9388b07b290897b461fbb6d9e7a937f5.png

429f657164d4581c0c6ae1d4ca32a292.jpg

属于健康养生的主题包括living , heal ,nural, antioxidant , goji ,dried,共计6个,所占比例为21%。

7a6239e40e59d9568004dabe53d9c3a4.jpg

属于休闲生活的主题包括twter , instagram ,pic, youngliving , shot,共计5个,所占比例为20%。

43251f19cc2445f25615418056e05514.jpg

从消费购物词云中,我们发现驴友爱买的宁夏特产,如干红葡萄酒、枸杞酒、贺兰石等。

从工业词云中,我们发现煤炭是宁夏的优势矿产资源。宁夏境内能源资源丰富,可利用的有石油、天然气、煤层气、水能、风能、光能等。这些资源为宁夏建设能源基地提供了强有力的保证。

从健康养生词云中我们发现作为宁夏特产的枸杞,具有一定的养生抗氧化功效。

从休闲生活词云中,我们发现宁夏作为旅游胜地,吸引了大量年轻人前来拍照游玩。


▍热门推文总体上以积极正向为主

4b53959efbbf5c6a1fdce64c5990d8b4.png

从变化的情况来看,2016年的推文积极正面的评价比例最低,为42%,消极负面评价的比例为58%,是历年来最高的。


点击标题查阅往期内容


自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据



左右滑动查看更多

c2a16168a37cc9143c9b79cb48be3f7e.png 通过2016年推特的关键词,我们发现负面的议题包括:驴友评论宁夏干燥的天气、宁夏部分地区牺牲环境换发展、以及导游强迫购物现象。

c674b226bf26eb8895ee914b725897a4.jpg

按照四个主题来看,在健康养生议题中,积极正面的评价为77.05%,略高于其他议题中正面评价的比例。同时可以看到休闲生活的负面评价比例最低。


▍热门推文中只有四分之一表现出了明显的情感

识别情感时,共有六种情感:anger(愤怒)、disgust(厌恶)、fear(恐惧)、joy(喜悦)、sadness(悲伤)和surprise(惊奇),在分析时会先为每条推文的每种可能情感打分。

如果六种情感可能性得分相差不大时,则情感类拟合为unknown(未知)。如果某条推文被拟合得到某一类情感,该情感一定是强烈的情感。

58e76f6d5f89407efb9ca2a9c2f4ca2b.png

从情感分析的结果来看,只有25.54%的推文表现出了强烈的情感。近四分之三的推文都没有表现出强烈的情感,情感拟合为unknown。

b909f28828b8a766baa1570f6dabdd55.png

历时来看,随着时间的推移,热门推文表现出强烈情感的比例越来越多。在2008年,只有30.3%表达出了强烈的情感,而2016年,这个比例已经提升到42.8%。这表明,就宁夏地区议题而言,推特用户越来越倾向于表达出强烈的情感。


▍从情感的比例情况来看,喜悦高居第一位,且有上升的趋势

从所表达出来的情感来看,比例最高的情感是喜悦,占比16.19%;其次为悲伤,占4.49%。

513c53088e829748d57a56108ef8e871.png

joy呈现出逐年提高的趋势, 这说明热门推文中,含有喜悦情感的比例越来越多,而sadness呈现出小幅上下波动减小的态势。

相关文章
|
4月前
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
88 3
|
7月前
|
自然语言处理 数据可视化 大数据
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
|
7月前
|
机器学习/深度学习 数据采集 数据可视化
R语言航班延误影响预测分析:lasso、决策树、朴素贝叶斯、QDA、LDA、缺失值处理、k折交叉验证(上)
R语言航班延误影响预测分析:lasso、决策树、朴素贝叶斯、QDA、LDA、缺失值处理、k折交叉验证
|
7月前
|
存储 自然语言处理 数据可视化
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化
|
7月前
|
机器学习/深度学习 数据采集 算法
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分析分类预测房价及交叉验证|数据分享
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分析分类预测房价及交叉验证|数据分享
|
7月前
|
机器学习/深度学习 数据采集 数据可视化
R语言SVM模型文本挖掘分类研究手机评论数据词云可视化
R语言SVM模型文本挖掘分类研究手机评论数据词云可视化
|
7月前
|
机器学习/深度学习
【视频】R语言LDA线性判别、QDA二次判别分析分类葡萄酒品质数据|数据分享(下)
【视频】R语言LDA线性判别、QDA二次判别分析分类葡萄酒品质数据|数据分享
|
7月前
|
机器学习/深度学习 算法 数据可视化
【视频】R语言LDA线性判别、QDA二次判别分析分类葡萄酒品质数据|数据分享(上)
【视频】R语言LDA线性判别、QDA二次判别分析分类葡萄酒品质数据|数据分享
|
7月前
|
机器学习/深度学习 算法 数据挖掘
R语言航班延误影响预测分析:lasso、决策树、朴素贝叶斯、QDA、LDA、缺失值处理、k折交叉验证(下)
R语言航班延误影响预测分析:lasso、决策树、朴素贝叶斯、QDA、LDA、缺失值处理、k折交叉验证
|
7月前
|
机器学习/深度学习 自然语言处理 算法
数据分享|R语言聚类、文本挖掘分析虚假电商评论数据:K-MEANS(K-均值)、层次聚类、词云可视化
数据分享|R语言聚类、文本挖掘分析虚假电商评论数据:K-MEANS(K-均值)、层次聚类、词云可视化