开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践:情感分析】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1067/detail/15460
情感分析
内容介绍
一、情感分析的定义
二、情感分析知识的扩展
三、情感分析方法比较
四、情感分析应用领域介绍
一、情感分析的定义
这个也是文本挖掘里面的一个内容,跟下图是一样的:
情感分析的定义是也有很多不一样的,可以看到很多定义的意思也是差不多的,看看定义,情感分析对文本进行上下文挖掘,识别和提取文本中的主观信息,主观信息如果简单表达的话,积极、消极、正面、负面,但是一般情况下还有一个中性,在很多的挖掘任务里面,一般中性就不考虑了,严谨的话还是包括中性的,积极、消极和中性,文本挖掘的一个目标就是帮助企业了解其品牌、产品或服务的用户情感,还有很多的名字,情感分析也可以叫做观点挖掘、文本倾向性分析、意见抽取、意见挖掘、情感挖掘、主观分析等等,这些名字对应的意思是跟情感分析有关系的,英文单词就是Sentiment analysis,后面还有一个词叫做Opinion mining叫做观点挖掘,这两个是应用比较多的,情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,如果要划分一下构成的话,情感分析有这样几个有机的组成部分,一个是观点持有者,就是表达这个观点、表达这个情感,要分析不同的情感,可以评价为持有者,也就是大家在抓这个评论的时候,不仅要抓评论,还要看看这个评论是谁发的,它的发布者是要一起采集的,然后进一步有这个评价对象、评价观点、评价文本,很多时候只考虑评价文本,只考虑这个文本是积极的还是消极的,整理评论是非常的简单的,因为复杂的话希望大家在里面用这个可以去大缀里面体现出来,简单的就是一个文本,一看文本,情感到底是什么,但是要往下详细一点的话是区分不同的观点持有者,哪些用户,什么观点,再进一步对文本分析出来,它的评价对象是什么,它的评价观点是什么,里面有评价对象和评价观点和它的评价对象还有评价词,内部就是这四项,这就是大家要理解的。
希望在大作业里面可以做情感分析,也可以写观点挖掘,要从明星的文本里面挖掘一些观点出来,观点到底表达的哪一种观点,表达的是某个地方交通特别的堵,还是某一个医疗的药费特别贵,在明星里面能够挖掘一些比较细的例子出来。
二、情感分析知识的扩展
对于情感分析,再给大家讲一下看看还有哪些是要了解的知识,首先是要了解情感的粒度,可以用二元分类的粒度,把情感分成正面和负面,积极的和消极的,感兴趣或者不感兴趣等等,也可以做三元分类,比如添加一个中性,也可以多元分类,比如说七情六欲,比如喜怒忧思悲恐惊,要在文本里面分享出来这个情绪,多标签的评价,这个例子比较少一点,大家可以去查一下,还可以打一星到五星的多标签的多元分类,这是情感本身的粒度。
接下来是文本粒度,可以做篇章级的,注意一点,一个篇章是什么情感,再细一点,一个句子是什么情感,下面就到方面级,也就是说细粒度的叫做aspect,就是到某一个特征的,某一个评价对象的它的情感,现在的情感分析的发展趋势已经到了方面级别的了,已经到了细粒度的了,也就是说通过情感分析知道yaga的衬衫级良好,当然在商业里面是没有意义的,只是知道好和坏,进一步知道什么呢?知道yaga的衬衫到底在哪几个方面被评为良好,面料、做工、价格还是什么,所以方面级可以进一步分为细粒度和粗粒度,主要看分析的对象、文本的级别,这是粗粒度和细粒度,然后是情感分析的方法,方法的话放到文本分类一起讲,所以目前用得最熟悉的还是分类的技术,但是现在讲课程给大家补充一下,还有基于情感词典的方法,实际上是一个分类的技术,它是识别的方法,就是看情感词表里面,就是看那个词在不在文本的词表里面,是这样的一个情感分析,在早期应用得比较多,新的技术流行起来之后开始机器学习的方法,刚才深度学习在大的范畴里面会继续学习,但是它的特征自动提取,主要是自动提取特征,自动帮我们列出来,情感分析的方法是平行的,现在目前情感分析的研究方向是有情感分类,这个是比较多的,可以打分的,情感评分,先对情感进行分类,然后对它的强度进行打分,还可以专门做评价对象抽取,评价词抽取,这里大家注意,我们那个是往往是把情感分析和观点挖掘放在一起的,Sentiment analysis和Opinion mining放在一起的,所以在这里面抽取评价对象和评价词,这也是在同学们的大作业,同学们也知道是提供案例的,希望大家去探索,因为课程容量是比较有限的,大家探索是无限的,通过大作业里面要去看大家有没有哪个同学能做得到,哪个明星关注做得更细,能够真正挖掘到文本里面的用户的关注,这个是评价对象、评价词的抽取。另外做一些概括性的,也就是说前面的评价对象、评价词企业已经抽出来了,当然不知道他们俩是不是一对一对的,如果用评论识别的话从这样一个关键数据,利用评论识别方法它是独立的了,可以通过规则在一站化里面看两个对象之间的关系,就是计划分析,能不能判断他就是一对,就是观点概括,评价对象、评价词对的抽取,然后再做各种统计分析。
还可以做一些虚假评论的识别,识别一些水军,如果一些小组同学的作业就是说网上有很多明星关注的评论,但是有一些是虚假的,想做虚假的话,分数就上去了,打分的话在平台里面当时就忘了总分就一百分,但是有一百二十分的,我们的技术前面用到respects的这种方法,后面用到的是sybname的方法,有碰到满分的了,前面没有用respects的,用的是sybname的方法,所以这个分数就会很高,后面怎么区分小组同学呢?
小组平时分可以占到40%,和小组同学是有点差距的,那就看大家做的深度了,尽管讲的课里面深度没法加深,但是给大家提到了,因为大家现在可以查,群里面提醒小组项目要去做,否则后面小组平时分不高的。接下来就是应用领域,前面的文本分类有了很多的应用领域,情感分析也有很多的应用领域,商业里面应用的是最多的,应用消费者口碑分析,这个在公司里面是特别感兴趣的,举一个例子,一个卖显示器的,有一个视频软件叫做优酷,曾经有好几年研究生在里面实习,一进去就帮他们监控他们显示器用户口碑以及对面用户的口碑,所以就强调这个消费者口碑分析,再下面就是事件走向预测,接下来就是舆情监控、用户兴趣挖掘,我们后面会给大家展开一下的,这就是应用领域,它有很多应用领域,做明星关注就是一个应用领域。
三、情感分析方法比较
接下来看一下分析方法比较,对于词典的方法,只有一个词典,构建一个词典,现在外面也有的,比如哈工大的、台湾大学的,国家台湾大学的,大家在这一方面一定要注意,构建一定要有,要有情感词典,词典里面的词要有极性和强度的标注,一个词不光是情感,还有它的极性,正面负面,还有它的强度,书的等级,一定要很好超好巨好,要有这种等级,那这个方法怎么做呢?做的话就是识别情感词,识别情感词的极性和强度,就是可以用识别来进行分析,就是做的这个文本在分好词之后,再找到这个词是不是情感词典里有的,极性怎么样,强度怎么样,这里面的极性和强度可能是一些程度副词,一些否定词,再介绍一些复杂规则,组合成词典的情感分析方法,大家应该很容易理解。
接下来是基于机器学习的方法,前面有做过,就是文本分类,大家之前在之前的课里面应该学过相似性的,大家应该很熟悉了,就是要进行特征提取,进行量化表示,运用分类器分类,再进行评估,就是这样一套流程,所以数据挖掘包括深度学习真正应用起来是不难的,所以大家要看到自己的优势,像其他专业的学生比如搞兴趣搞前报,或者其他的物理化学的都想搞,但是最终还是有数学统计,有些方面还是有点复杂的,其他的简单学习了就简单用起来,才是容易的,像已经毕业的研究生其实他每天做这个延迟处理,offer连不住的他都要选择这个工业,他在学的时候就很痛苦,就是要学一些统计方面的知识,看过很多的教材,都是跟我们专业相关的重点教材,我们很多课的话只是讲一部分,如果完全看的话就是看很多章的内容。下一个就是基于深度学习的方法,这个方法的好处就是不依赖特征工程,就是自动提取特征,就是和前面的方法最大差异的地方,前面的方法如果特征做不好的话,后面的效果就做不好了,如果用深度学习的话,它是自动提取出来,不依赖特征工程,而且用词向量表示,如果说词向量是一组,那么它的舆论力量非常强大,那么它是依赖于深层神经网络训练,是通过神经网络来训练的,而前面的传统机器学习的方法,文本分类器,这些是它们的差异。
四、情感分析应用领域介绍
下面来看一下文本情感分析应用领域介绍一下,消费者口碑分析,前面提到过了是非常重要的,就是情感分析应用最多的地方,消费者也会看这些攻略,消费者据此制定自己的购买决策,商家也可以据此分析和总结产品与服务的不足并加以改进,这是消费者口碑分析。舆情监控的话,那这个我们很多单位很多政府部门重视这个舆情监控,这个是很重要的,主要是防这个舆情,这次对疫情的分析,现在我们的网课这样的课程花了很多时间,否则应该要做一个舆情监控,各方面论文现在外面很多地方很需要的,这里讲的就是舆情监控。接下来是事件走向,通过对重大事件发生时的民意分析,挖掘用户的主流观点和态度,研判事件未来的走向与发展趋势,这个很重要。
那还有金融方面投资的,比如说国外有投资基金通过情感分析研究金融评论文本中的投资者情感情绪来构建情绪宝模型,来预测金融的走势,比如说英国的一个基金投资了教育,效益可以达到年化7%-8%以上,比银行的好多了,在美国总统大选时,大家就更明白了,就是分析网络舆情,重大事件的走向,可能会受到投票人的影响,然后就会出应对策略。
下一个就是个人兴趣挖掘,就说得更细了,要通过社交网络的分析,腾讯上面也有一个社交网络的课程分析,在网络里面是一个重大的保障,它不仅有文本源,还有意见领袖,还有一些网络的圈子,一些帮派,还能区别数据的挖掘,然后分析个人的偏好、兴趣,然后可以构造用户画像,那么这个就是很重要的用户兴趣挖掘。以上就是它的应用领域。