开发者学堂课程【达摩院自然语言处理 NLP 技术和应用:情感分析领域的 NLP 技术与应用】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/41/detail/953
情感分析领域的 NLP 技术与应用
情感分析
1.背景介绍
情感分析( Sentiment analysis ):又称倾向性分析,或意见挖掘( Opinion mining ),它是对带有情感色彩的主观性文本进行分析,处理,归纳和推理的过程。
相信大家对情感分析并不陌生,如果在淘宝网上购过物,肯定会看评论区,评论区都是已经购买过该商品的用户对商品进行的主观性的评价。
情感分析在工业界和学术界有着广泛的应用和研究
情感分析在每年的人工智能或在 NLP 上会有大量的论文。
2.应用场景(情感分析在企业界有比较多的应用)
此处罗列了三种场景:第一种,在商品的评论区,有一个大家印象,通过把商品观点的正负向进行分析,并最终聚合形成标签;第二种,在事件分析里,把事件的观点进行抽取,最终在聚合页进行展示;第三种,品牌舆情,从产品、品牌、企业文化、等多角度聚焦用户的一些观点,品牌舆情很好的帮助品牌商、企业做品牌监控以及舆情的预警。
3.研究内容
从研究内容上看,情感分析大致分为三个方向:
1.情感分类(情感方向的判断)
2.评价对象识别
3.评价对象情感判断
例如:
任务二:“衣服”、“弹力”、“颜色”称之为显属性(在文本中可以直接看到),“面料”(在文本中看不到)对应着“不起球”,这种称之为隐属性。
任务三:抽取评价对象之后,修饰这个评价对象的情感词是什么以及情感方向是什么,类似于这里可以组成一个三元组。
在阿里内部,对情感分析进行了深度的探索和研究
在底层有的重要资源;上面有情感分析的核心技术;通过对情感分析处理力度的不同,可以分为词语级、属性级、句子级、篇章级(每一级都有独特的处理任务),这些都是针对单语言、单领域的情感分析任务;在跨语言、跨领域里,有着其他的情感分析的任务技术,此外还有多模态。目前在情感分析的任务,在内部一定服务好,评价、问大家,此外还有舆情,支持好一些类似于舆情的监控。
4.情感分类
早期,切入情感分析这个任务,也是以情感分类进行研究。在企业界追求简单实用的方法。我们也是以 Fast test 为例,在底层,融入了基础的 NLP 能力,即磁性的信息,可以部分解决效期的问题。
通过实验,我们在电商数据和公开的 IMDB 上,都取得了最优的数据效果。
5.属性抽取
除了对情感分类进行了研究之外,还对属性抽取进行了研究。属性抽取类似于序列标注的一个任务,我们选择了经典的算法空降模型, BILSTM-CRF 模型,只是在底层我们融入了磁性信息和依存信息,每一种信息的融入,都有不同程度的数据效果的提升,说明每一种信息都对最终的属性抽取有比较好的作用。目前在线上,平均F值做到了0.831。
6.跨领域的属性识别
传统的商品属性分析往往针对特定的行业。
首先做到海量的数据标注,然后利用监督学习的方法构建模型。但是如果要扩充到成百上千个行业领域去,序列和标注的成本是较大的。
是不是有一种方法可以做到领域的自适应。其实我们研究了一个课题,叫跨领域的属性识别。这个方法主要是面向电商类目的属性分类的问题,也就是利用一个已经充分标注好的领域数据去辅助一个只有少量标注领域的情感属性分类。
这个方法有几个方面的挑战:第一,用户在不同的领域会采用不同的语言去进行评论;第二,对同一个情感属性,不同的领域下的语言分布也是不一样的;第三,不同的领域有各自特有的情感属性。
如何解决这些问题,我们结合了电商环境下的文本信息和用户行为信息,将原领域和目标领域的数据结点类似于卖家的结点,买家的结点,商品的结点以及商品评论的结点还有一些词的结点,属性的结点。基于这些结点,我们可以构建异构的连通图,图上的线表示结点的关系,这样相关的属性信息就可以通过随机游走的方式在图上进行迁移。
基于构建的图,我们提出了一个创新的 Graph Bending 的方法,这个方法叫 Traceble Heterogeneous Graph Represetation ,这个方法不仅能够把异构图的信息映射到同一个低维的向量空间上,而且可以很好的捕捉图中的群集信息,消除随机游走中可能带来的噪音,这个方法我们融入了一个引变量,叫 walker tracer 的引变量。它的目的是为了获取群集的语义一列信息和语义共享模式,为了更好地理解这个引变量,可以理解为文本主题模型中的主题变量,也就是类似于 LDI 中,相当于随机游走路径, LTI 中的词相当于游走路径的一个结点。我们的目的是为了把每一个结点和对应的 tracer 引变量一起进行表示学习,最终每一个结点表示是由结点本身的本领和对应的引变量的本领聚合而成。通过这个方法生成的结点表示借助用户电商行为的连接,能够获取融合不同类目之间的相关信息,提高这个属性的整体的分类效果。
我们在多个领域进行了实验,总体上,我们的方法在不同领域上性能均高于全部对照组实验,这说明了 Graph 里面添加用户的行为信息,这个图可以很好的融合多种特征,
也可以看到深度学习的方法没有传统学习方法好,主要是由于训练数据的缺失。当然,随着训练数据的增加,这个数据效果有一定的提升。
7.问答型情感分析
问答级情感分类与传统情感分类的比较,除了问题之外,还包括回答部分,而且两者是有很强的关联性。
例如:
Q :这款笔记本的键盘怎么样?
A :键盘很不错,但是耗电太快了。
这个例子里,回答的前半部分是答案,后边部分并不是。基于此,我们设计了自己的算法框架。
算法框架
·首先分别将问题文本与答案文本切分成子句;
· QA bi - directional matching 层用来提取问题中子句与答案中子句之间的语义匹配关系;
· Hyper self - matching 层对上一层输出的匹配表示进行聚合,得到整个问答对的语义表示。
在支上,加上 Softmax 进行最终的一个问答型情感分析的分类。通过这个方法,可以看出F值比现有的方法提升0.6-0.7。这个方法在 EMNLP 上发表。
除了这个方法之外,我们还可以进行 Document-lever Aspect Sentiment Classification 的一些任务以及 Aspect Sentiment Classification Towards Question-Answering 的一些研究,这两个方法已经发表在 EMNLP 2019 以及 ACL 2019 上。