在当今信息爆炸的时代,文本分析作为一种重要的数据处理方法,已经广泛应用于各个领域的研究中(点击文末“阅读原文”了解更多)。
相关视频
本文旨在通过运用文本分析技术,帮助客户深入探究新能源汽车股市涨跌影响、英国全国性封锁对零售配送产业的影响、疫情下的旅游微博数据、游客满意度分析以及新疆棉花事件微博评论舆情等多个议题。通过对这些议题的综合性分析,我们可以更好地理解社会经济变迁、消费者行为以及舆情动态等方面的现象和趋势。
媒体感知的新能源汽车股市涨跌影响
自股票市场诞生以来,投资者以及研究人员一直探索市场情绪和涨跌的联系,国外一些学者利用Twitter来分析股市涨跌,但是中文股评情绪分析又与英文有所不同,利用中文社区股评分析股市走向,确定新能源汽车股市涨跌与股评情绪间的关系。
解决方案
任务/目标
根据东方财富网新能源股市,利用情感词分析情感,建立情感指数指标,关联股市涨跌与中文股评情绪关系。
数据源准备
为了获得东方财富网股吧中11个相关新能源汽车股吧中评论,利用Python中beautifulsoup库解析东方财富网股吧,分析网页网址规律,翻页通过网址最后一位数改变控制,得知相关评论以及时间存储在某个class当中,利用findall函数爬取所有结果
此外利用网上获取的BosonNLP关于标注了积极情感词以及消极情感词的数据,各4607行。
数据处理
把不能处理的数据做一些处理,处理成我们所需要的中文词汇,举例如下:
在excel将空的集合进行删除,之后利用结巴分词,去除英文以及数字,按照空格进行分词。
以上例举的只是部分。
构造
以上说明了如何处理数据,我们需要进一步获取情感极性,利用Python函数库TfidfVectorizer将文本TF-IDF进行向量特征表示,之后建构不同的分类器进行训练,最终比较模型。输入标注好积极以及消极文本,随机划分为训练集以及测试集,利用相应模型进行训练,将股评向量化表示,带入模型,结合标注好的情感,输出情感分类。之后利用同一天内积极和消极词个数,以天为单位,建立看涨指数:
建模
支持向量机
支持向量机是主要基于一个在空间中存在可以划分的平面从而求出最优平面的算法,将所有特征分为两类。当文本表示在特征空间中,通过计算不同类别的距离最大的间隔,则位于中线的就是所求的超平面,超平面距离最近的点即为距离。任意点到超平面距离可以写为如下:
其中w为超平面法向量,b为位移项,在满足以下约束,找到最大距离即可。
其中y为分类表示,为±1。满足约束即r最大,同时只要找到w、b就可以得到这个向量空间的超平面,从而可以将文本成功分为两类。
朴素贝叶斯算法
朴素贝叶斯算法是根据贝叶斯公式得到的,本质上是知道若干个事件的概率,最终某一事件出现的概率,也就是求某事件的条件概率。但是贝叶斯公式计算后验概率时如果各个属性之间不独立,那么它们之间的联合概率太过于复杂无法计算,所以朴素贝叶斯公式采用了各个属性条件独立的假设。因此可以简便地计算出先验概率后训练出一个输出后验概率的决策函数。
朴素贝叶斯算法在信息检索领域有较高的使用度。在本研究中利用词袋模型以及朴素贝叶斯算法通过计算股评文本在整个词袋模型中出现的概率,用最大似然估计计算不同分类的概率,经过简单的大小比较得到最终结果。
Yaning Wu
拓端分析师
训练展示
在此案例中,最终股评与股市走势图可以得到下图中结果:
可以看出,基本上股民情绪与股市走向有正向联系的关系。但是整个本文只是处理了数字以及英文,除此之外符号,甚至是表情这些在网络评论中越来越常见的内容没有加以考虑。在特征工程中,还有许多研究还增加了中性词的标注文本,其次在使用了词袋模型,没有考虑文本语法结构,在文本中恐怕无法理解反语,嘲讽的词汇,无疑会增加一部分词语的分类错误。
英国全国性封锁对零售配送产业的影响——基于消费者在线评论的文本分析
消费者在线评论是由消费者直接产生的数据,它直接而准确地反映了消费者的意愿。与数值型数据不同,对自然语言下文本数据的处理往往需要跨越在特定环境下对特定语义的准确理解的障碍。本项目以英国新型冠状病毒下英国全国性封锁为背景,通过网络爬虫技术技术,获取海量消费者真实反馈数据,利用自然语言处理对文本数据进行处理,从消费端探究全国性封锁对消费需求的影响,为新冠冲击下零售配送产业受到的影响进行探究,为新冠后疫情时代零售配送产业的发展提供建议
解决方案
任务 / 目标
利用网络爬虫技术获取英国主流零售商零售配送服务的消费者在线评论,利用STM模型进行主题聚类分析,通过主题聚类分析结果与时间序列结合纵向探究消费者在全国性封锁前后消费需求变化情况,并横向对比不同层级零售商客户全体消费需求变化差异,预测未来消费需求走势。
数据源准备
利用网络爬虫,爬取第三方在线平台Trustpilot上的消费者评论,共收集7家英国主流零售商的客户在线评论20000+条
特征转换
数据清洗:选取特定时间段内的数据(2015年-2021年的数据); 选取特定语言撰写的数据(英语);对空值数据进行删除
数据初步探索:探究数据分布特征,探索数据变化情况,利用时间序列图表观察全国性封锁时间节点数据变化情况
STM 建模
提取数据:利用textProcessor与readCorpus算法将原始数据处理为STM模型可以解析的文本内容
数据预处理:利用prepDocuments与plotRemoved算法转换数据格式,根据阈值删除低频单词
结构主题模型估计:利用stm算法估计主题热度和主题内容
模型优化:利用searchK选择最优主题数
模型结果解释:获取主题高概率关键词,利用plot.STM绘制STM结果图; 估计文档之间的关系以及主题之间的关系,获取主题网络分析,与时间序列结合分析主题随时间变化情况探究全国性封锁的影响,预测主题未来发展情况
数据特征分布情况
数据随时间序列变化情况:
模型优化结果:
不同模型学习结果:
不同主题数值设置下模型学习结果
主题模型学习结果:
主题关联情况:
主题与零售商分布情况
主题在时间序列下的演变情况:
项目结论:
STM主题从顾客在线评论中总结出了10大主题,在探究主题分布及主题占比与评分的关系后,发现“送货员提供的服务质量”与“货物与包装质量”两大主题在网上评论中所占的比例最高,是顾客评论中最重要的评价指标.。
对于7家英国主流零售配送商提供的杂货配送服务的评估与对比后发现:Ocado提供的送货服务最令顾客满意;Tesco、Morrisons、Waitrose与Iceland处于中间;而 Aldi 和 Marks & Spencer 表现最差。从主题分布对比来看,Ocado的高评分得益于其送货员提供的高质量送货服务;Waitrose为客户提供了更准时的服务;Morrisons为客户提供更充足的送货服务名额,Tesco为客户提供了更好的支付体验;Aldi 和 Marks & Spencer 的表现相对较差,其部分原因是两者仍处于杂货配送服务的初始发展阶段。
通过比较主题占比随时间序列的变化情况后可以分析得到全国性封锁的确改变了顾客对于零售配送的需求。在实施全国性封锁后,“送货服务名额与对弱势群体的关怀”得到了顾客更多的关注,客户也更关心能否获取到配送名额与商品,而对配送准时性、货品质量等问题表现出更少关注。
从主题比例的长期发展趋势来看,由于国家封锁的结束、流行病的常态化,以及零售商对零售配送业务的人员与资源配置的增加,全国性封锁对零售配送产业顾客需求的影响逐渐消失,零售配送需求整体发展趋势恢复到新冠疫情之前。“退款”与“售后服务”等问题逐渐成为了客户关注的重要指标。
分析疫情赛事、香港旅游两套微博博文数据
博文数据量很多,疫情赛事有9万多条博文,香港旅游有7万多条博文,人工处理耗时耗力。
利用python代码批量提取每一条博文的tag,然后对所有的tag进行分类,最后做了主题时间线分布。同时利用LDA算法以及TF-IDF算法对博文进行了词频分析与情感分析,最终使关键词转化为数字形式的数据,之后再利用SPSS进行主成分分析以及假设T检验。
网络评论文本的游客满意度分析
网络评论是游客对于旅游目的地的主客观反映,基于网络评论文本分析目的地游客满意度的影响因素可以提升目的地的美誉度。
然而由网络本身特点所限,评论信息十分繁杂,从中提取重要信息往往十分困难。
解决方案
任务/目标
1、提取景区及酒店TOP20热词
2、建立模型按满分为5分对景区及酒店的服务、位置、设施、卫生、性价比五个方面进行评分,并按照均方误差进行模型评价
3、对网评文本的有效性进行分析
4、建立合理的模型和算法,从景区及酒店的网评文本中挖掘出他们各自的特色和亮点。
数据源准备
在未给定数据集之前,通过爬虫在去哪儿网上爬取了不同酒店及景区的网络评论进行模型的试验。给定的数据集包含50个景区及酒店的评论文本及评分。
建模
1、针对问题一,由于原始数据集含有大量噪声,首先对原始数据进行预处理,包括评论文本去重、繁体字转换为简体字、错别字纠正、语种识别与转换以及使用 Jieba 分词对文本进行分词并过滤停用词。然后对处理后的备选数据集构建基于时效影响因子改进的TF-IDF 双模型,提取重要程度 TOP20 的关键词作为景区或酒店印象词。
2、针对问题二,对数据进行预处理后,使用LDA模型进行主题特征提取,通过计算初步预测时各个特征的重要性作为各个特征的贡献度,剔除贡献度不高的尾部特征,并通过主观分析剩余特征主题所含词与所预测维度的相关性,最终确定每个维度预测模型所用特征,并采用门限回归对得分进行预测。
3、针对问题三,从文本结构和语义层面建立了二级综合有效性评价体系。
文本结构层面从直接的文本意义上筛选重复、长度极小、内容敏感的评论;在一级分类模型分类结果上,通过对评论进行聚类并结合备选分类确定分类类别,对分层抽样得到的人工标注集进行人工类别标注后,将其作为训练集训练基于神经网络的多标签分类模型,最终按照每个评论的分类标签进行有效性评价。
Chang Zhang
拓端分析师
4、针对问题四,在预处理后的数据上构建LSTM情感分类模型并筛选出情感极性为正向的评论文本。然后对筛选出的正向文本进行主题词提取,构建每个景区及酒店的主题词典,并按照词频顺序筛选出每个景区及酒店独一无二的特色词。
1、印象词云图示例如下:
2、景区及酒店各维度预测模型的均方误差均控制在0.1以下,由折线图可看出模型预测评分与给定专家评分相差不大。
3、将一级分类模型与二级分类模型汇总,认定一级分类模型与二级分类模型中无效指标筛选出的评价为无效评论。结合实际用户体验及专家先验知识,模型认定的无效指标的合理性较高。
4、筛选出的特色词较为合理
新疆棉花事件微博评论舆情分析
微博评论区数据批量爬取有翻页限制;舆情事件具有时效性;数据集标注困难;中文文本需要分词、转化为词向量;LSTM模型训练以及融合注意力机制后的精确度有挑战。
目标
在新疆棉花事件中对微博评论进行情感分析。
数据源准备
爬虫批量爬取评论数据集,并对数据集进行清洗、打标签的工作。
词向量分词
划分训练集和测试集
建模
LSTM
RNN 模型的优化,可以避免长依赖问题。