文本挖掘分析多元应用:新能源汽车股市、英国封锁、疫情旅游与舆情分析

简介: 文本挖掘分析多元应用:新能源汽车股市、英国封锁、疫情旅游与舆情分析


在当今信息爆炸的时代,文本分析作为一种重要的数据处理方法,已经广泛应用于各个领域的研究中点击文末“阅读原文”了解更多

相关视频

image.png

image.png

本文旨在通过运用文本分析技术,帮助客户深入探究新能源汽车股市涨跌影响、英国全国性封锁对零售配送产业的影响、疫情下的旅游微博数据、游客满意度分析以及新疆棉花事件微博评论舆情等多个议题。通过对这些议题的综合性分析,我们可以更好地理解社会经济变迁、消费者行为以及舆情动态等方面的现象和趋势。

媒体感知的新能源汽车股市涨跌影响

自股票市场诞生以来,投资者以及研究人员一直探索市场情绪和涨跌的联系,国外一些学者利用Twitter来分析股市涨跌,但是中文股评情绪分析又与英文有所不同,利用中文社区股评分析股市走向,确定新能源汽车股市涨跌与股评情绪间的关系。

解决方案

任务/目标

根据东方财富网新能源股市,利用情感词分析情感,建立情感指数指标,关联股市涨跌与中文股评情绪关系。

数据源准备

为了获得东方财富网股吧中11个相关新能源汽车股吧中评论,利用Python中beautifulsoup库解析东方财富网股吧,分析网页网址规律,翻页通过网址最后一位数改变控制,得知相关评论以及时间存储在某个class当中,利用findall函数爬取所有结果

此外利用网上获取的BosonNLP关于标注了积极情感词以及消极情感词的数据,各4607行。

数据处理

把不能处理的数据做一些处理,处理成我们所需要的中文词汇,举例如下:

在excel将空的集合进行删除,之后利用结巴分词,去除英文以及数字,按照空格进行分词。

以上例举的只是部分。

构造

以上说明了如何处理数据,我们需要进一步获取情感极性,利用Python函数库TfidfVectorizer将文本TF-IDF进行向量特征表示,之后建构不同的分类器进行训练,最终比较模型。输入标注好积极以及消极文本,随机划分为训练集以及测试集,利用相应模型进行训练,将股评向量化表示,带入模型,结合标注好的情感,输出情感分类。之后利用同一天内积极和消极词个数,以天为单位,建立看涨指数:


4463d1794c56966a336f52b39eaafc99.png

f653997df7f3dd2ea38d6cb719cc3e39.png

建模

支持向量机

支持向量机是主要基于一个在空间中存在可以划分的平面从而求出最优平面的算法,将所有特征分为两类。当文本表示在特征空间中,通过计算不同类别的距离最大的间隔,则位于中线的就是所求的超平面,超平面距离最近的点即为距离。任意点到超平面距离可以写为如下:

05816ca37842f6afa182ee081e27c37b.png

其中w为超平面法向量,b为位移项,在满足以下约束,找到最大距离即可。


f189f0e23f2585b80a05d845f77ab01f.png

其中y为分类表示,为±1。满足约束即r最大,同时只要找到w、b就可以得到这个向量空间的超平面,从而可以将文本成功分为两类。

朴素贝叶斯算法

朴素贝叶斯算法是根据贝叶斯公式得到的,本质上是知道若干个事件的概率,最终某一事件出现的概率,也就是求某事件的条件概率。但是贝叶斯公式计算后验概率时如果各个属性之间不独立,那么它们之间的联合概率太过于复杂无法计算,所以朴素贝叶斯公式采用了各个属性条件独立的假设。因此可以简便地计算出先验概率后训练出一个输出后验概率的决策函数。



朴素贝叶斯算法在信息检索领域有较高的使用度。在本研究中利用词袋模型以及朴素叶斯算法通过计算股评文本在整个词袋模型中出现的概率,用最大似然估计计算不同分类的概率,经过简单的大小比较得到最终结果。




Yaning Wu

拓端分析师



训练展示

d61aa0b0475dd15cf07ed0f37387625a.png

在此案例中,最终股评与股市走势图可以得到下图中结果:

0be239d789a3d8b5bd246ef9ba4726b2.png

可以看出,基本上股民情绪与股市走向有正向联系的关系。但是整个本文只是处理了数字以及英文,除此之外符号,甚至是表情这些在网络评论中越来越常见的内容没有加以考虑。在特征工程中,还有许多研究还增加了中性词的标注文本,其次在使用了词袋模型,没有考虑文本语法结构,在文本中恐怕无法理解反语,嘲讽的词汇,无疑会增加一部分词语的分类错误。

英国全国性封锁对零售配送产业的影响——基于消费者在线评论的文本分析

消费者在线评论是由消费者直接产生的数据,它直接而准确地反映了消费者的意愿。与数值型数据不同,对自然语言下文本数据的处理往往需要跨越在特定环境下对特定语义的准确理解的障碍。本项目以英国新型冠状病毒下英国全国性封锁为背景,通过网络爬虫技术技术,获取海量消费者真实反馈数据,利用自然语言处理对文本数据进行处理,从消费端探究全国性封锁对消费需求的影响,为新冠冲击下零售配送产业受到的影响进行探究,为新冠后疫情时代零售配送产业的发展提供建议

解决方案

任务 / 目标

利用网络爬虫技术获取英国主流零售商零售配送服务的消费者在线评论,利用STM模型进行主题聚类分析,通过主题聚类分析结果与时间序列结合纵向探究消费者在全国性封锁前后消费需求变化情况,并横向对比不同层级零售商客户全体消费需求变化差异,预测未来消费需求走势。

数据源准备

利用网络爬虫,爬取第三方在线平台Trustpilot上的消费者评论,共收集7家英国主流零售商的客户在线评论20000+条

特征转换

数据清洗:选取特定时间段内的数据(2015年-2021年的数据); 选取特定语言撰写的数据(英语);对空值数据进行删除

数据初步探索:探究数据分布特征,探索数据变化情况,利用时间序列图表观察全国性封锁时间节点数据变化情况

STM 建模

提取数据:利用textProcessor与readCorpus算法将原始数据处理为STM模型可以解析的文本内容

数据预处理:利用prepDocuments与plotRemoved算法转换数据格式,根据阈值删除低频单词

结构主题模型估计:利用stm算法估计主题热度和主题内容

模型优化:利用searchK选择最优主题数

模型结果解释:获取主题高概率关键词,利用plot.STM绘制STM结果图; 估计文档之间的关系以及主题之间的关系,获取主题网络分析,与时间序列结合分析主题随时间变化情况探究全国性封锁的影响,预测主题未来发展情况

数据特征分布情况

3b1e6b4ec1b1fc525291e49e54515d1b.png 数据随时间序列变化情况:

5e99fbef536d7d669b2f12921a3e40a7.png

模型优化结果:

不同模型学习结果:

95eb9a6a0e8e80ce80d380d36db4c8f0.png

不同主题数值设置下模型学习结果

b5978bfb972a09b1c93d788f2d8deb7b.png 主题模型学习结果:

主题关联情况:


2e2003dc7c431f97a1f437a500ea297c.png

主题与零售商分布情况

3e64d1b57fa87072d7f1d913e943d17b.png

主题在时间序列下的演变情况:

9f599b65d18b667ca06d0cb53632705d.png

项目结论:

STM主题从顾客在线评论中总结出了10大主题,在探究主题分布及主题占比与评分的关系后,发现“送货员提供的服务质量”与“货物与包装质量”两大主题在网上评论中所占的比例最高,是顾客评论中最重要的评价指标.。

对于7家英国主流零售配送商提供的杂货配送服务的评估与对比后发现:Ocado提供的送货服务最令顾客满意;Tesco、Morrisons、Waitrose与Iceland处于中间;而 Aldi 和 Marks & Spencer 表现最差。从主题分布对比来看,Ocado的高评分得益于其送货员提供的高质量送货服务;Waitrose为客户提供了更准时的服务;Morrisons为客户提供更充足的送货服务名额,Tesco为客户提供了更好的支付体验;Aldi 和 Marks & Spencer 的表现相对较差,其部分原因是两者仍处于杂货配送服务的初始发展阶段。

通过比较主题占比随时间序列的变化情况后可以分析得到全国性封锁的确改变了顾客对于零售配送的需求。在实施全国性封锁后,“送货服务名额与对弱势群体的关怀”得到了顾客更多的关注,客户也更关心能否获取到配送名额与商品,而对配送准时性、货品质量等问题表现出更少关注。

从主题比例的长期发展趋势来看,由于国家封锁的结束、流行病的常态化,以及零售商对零售配送业务的人员与资源配置的增加,全国性封锁对零售配送产业顾客需求的影响逐渐消失,零售配送需求整体发展趋势恢复到新冠疫情之前。“退款”与“售后服务”等问题逐渐成为了客户关注的重要指标。

分析疫情赛事、香港旅游两套微博博文数据

博文数据量很多,疫情赛事有9万多条博文,香港旅游有7万多条博文,人工处理耗时耗力。

利用python代码批量提取每一条博文的tag,然后对所有的tag进行分类,最后做了主题时间线分布。同时利用LDA算法以及TF-IDF算法对博文进行了词频分析与情感分析,最终使关键词转化为数字形式的数据,之后再利用SPSS进行主成分分析以及假设T检验。

8d3e75cf4fcd257b610889360f9b9065.png

c675afd29fe54011f2c5414a454079a8.png 75f978786eefcbcea2d91828d2bd29ce.png

网络评论文本的游客满意度分析

网络评论是游客对于旅游目的地的主客观反映,基于网络评论文本分析目的地游客满意度的影响因素可以提升目的地的美誉度。

然而由网络本身特点所限,评论信息十分繁杂,从中提取重要信息往往十分困难。

解决方案

任务/目标

1、提取景区及酒店TOP20热词

2、建立模型按满分为5分对景区及酒店的服务、位置、设施、卫生、性价比五个方面进行评分,并按照均方误差进行模型评价

3、对网评文本的有效性进行分析

4、建立合理的模型和算法,从景区及酒店的网评文本中挖掘出他们各自的特色和亮点。

数据源准备

在未给定数据集之前,通过爬虫在去哪儿网上爬取了不同酒店及景区的网络评论进行模型的试验。给定的数据集包含50个景区及酒店的评论文本及评分。

建模

1、针对问题一,由于原始数据集含有大量噪声,首先对原始数据进行预处理,包括评论文本去重、繁体字转换为简体字、错别字纠正、语种识别与转换以及使用 Jieba 分词对文本进行分词并过滤停用词。然后对处理后的备选数据集构建基于时效影响因子改进的TF-IDF 双模型,提取重要程度 TOP20 的关键词作为景区或酒店印象词。

2、针对问题二,对数据进行预处理后,使用LDA模型进行主题特征提取,通过计算初步预测时各个特征的重要性作为各个特征的贡献度,剔除贡献度不高的尾部特征,并通过主观分析剩余特征主题所含词与所预测维度的相关性,最终确定每个维度预测模型所用特征,并采用门限回归对得分进行预测。

3、针对问题三,从文本结构和语义层面建立了二级综合有效性评价体系。


文本结构层面从直接的文本意义上筛选重复、长度极小、内容敏感的评论;在一级分类模型分类结果上,通过对评论进行聚类并结合备选分类确定分类类别,对分层抽样得到的人工标注集进行人工类别标注后,将其作为训练集训练基于神经网络的多标签分类模型,最终按照每个评论的分类标签进行有效性评价。




Chang Zhang

拓端分析师

4、针对问题四,在预处理后的数据上构建LSTM情感分类模型并筛选出情感极性为正向的评论文本。然后对筛选出的正向文本进行主题词提取,构建每个景区及酒店的主题词典,并按照词频顺序筛选出每个景区及酒店独一无二的特色词。

1、印象词云图示例如下:

2d2472833f0d99d72b65956081afe3df.png

2、景区及酒店各维度预测模型的均方误差均控制在0.1以下,由折线图可看出模型预测评分与给定专家评分相差不大。

51dd2934bce271ce9a90efe6ebd499f2.png

e7f292d87cffcb8ca609d9f546403bd0.png 3、将一级分类模型与二级分类模型汇总,认定一级分类模型与二级分类模型中无效指标筛选出的评价为无效评论。结合实际用户体验及专家先验知识,模型认定的无效指标的合理性较高。

be0f2fdc2e2ed50d2bbf3e9190b51c11.png

8788fae403fd593df531bad82b27d088.png

4、筛选出的特色词较为合理

0b0e7fc87bd9cb0bbafac1fbeca7587f.png 2fc63de303ab09d7a708db8381e392d1.png



新疆棉花事件微博评论舆情分析

微博评论区数据批量爬取有翻页限制;舆情事件具有时效性;数据集标注困难;中文文本需要分词、转化为词向量;LSTM模型训练以及融合注意力机制后的精确度有挑战。

目标

在新疆棉花事件中对微博评论进行情感分析。

数据源准备

爬虫批量爬取评论数据集,并对数据集进行清洗、打标签的工作。

6861f54f523e37a95304bd904d2822e2.png

词向量分词

82707e100e98d9d4e9cc2a7f8b8df028.png

e867990d530b1cfa4f6aeb914368060d.png

a083db2d1bd1315f53b580a1f935e74f.png


划分训练集和测试集

b6c66556b81011e874d61ca46683df82.png

建模

LSTM

RNN 模型的优化,可以避免长依赖问题。

c9b2b081f324210262b6d7188f3eae71.png

0baa9842920dcae4e98bafa7ba7ec28f.png 8a718bddbf48bc504432f46a5772ea07.png

相关文章
|
数据采集 供应链 安全
【年终特辑】看见科技创新力量 洞见时代创业精神—医疗健康—尊颐智能:智能康复护理设备,精准解决术后者/失能者日常护理难题
【年终特辑】看见科技创新力量 洞见时代创业精神—医疗健康—尊颐智能:智能康复护理设备,精准解决术后者/失能者日常护理难题
155 1
|
人工智能 数据库
【年终特辑】看见科技创新力量 洞见时代创业精神—医疗健康—凌视科技:全球领先的超高速细胞成像智能分析企业
【年终特辑】看见科技创新力量 洞见时代创业精神—医疗健康—凌视科技:全球领先的超高速细胞成像智能分析企业
110 1
|
传感器 供应链 自动驾驶
【年终特辑】看见科技创新力量 洞见时代创业精神—交通物流—聚速电子:16年民用微波雷达技术,探路智慧交通场景
【年终特辑】看见科技创新力量 洞见时代创业精神—交通物流—聚速电子:16年民用微波雷达技术,探路智慧交通场景
154 0
|
设计模式 安全 新能源
【年终特辑】看见科技创新力量 洞见时代创业精神—交通物流—承宇车业:打造“新物种”Mark-1,赋能“全封闭城市短途出行”领域
【年终特辑】看见科技创新力量 洞见时代创业精神—交通物流—承宇车业:打造“新物种”Mark-1,赋能“全封闭城市短途出行”领域
123 0
|
传感器 人工智能 自动驾驶
【年终特辑】看见科技创新力量 洞见时代创业精神—交通物流—慧建科技:为自动驾驶和智慧交通提供高性价比的激光雷达
【年终特辑】看见科技创新力量 洞见时代创业精神—交通物流—慧建科技:为自动驾驶和智慧交通提供高性价比的激光雷达
168 0
|
人工智能 新能源
【年终特辑】看见科技创新力量 洞见时代创业精神—交通物流—中融佳信:为智能路侧停车提供管理系统
【年终特辑】看见科技创新力量 洞见时代创业精神—交通物流—中融佳信:为智能路侧停车提供管理系统
107 0
|
供应链 区块链 调度
科技“战疫”:一个成都轻资产企业的复苏样本
冬天时共渡难关,春天到了,才能共享红利。
科技“战疫”:一个成都轻资产企业的复苏样本
|
大数据
北京交通用上了高科技 预测出行时间不慌张
本文讲的是北京交通用上了高科技 预测出行时间不慌张【IT168 评论】在北京经常出差的人一定感受过机场高速的拥堵,有些时候明明时间还来得急,却生生地让机场高速堵的赶不上时间。
1207 0