从评论中构建可解释的意见图

简介: 从评论中构建可解释的意见图

论文标题:Constructing Explainable Opinion Graphs from Reviews


论文链接:https://arxiv.org/abs/2006.00119


论文来源:WWW 2021


一、概述


网络上存在一些事实的和主观的信息,近几年,在提取“主-谓-宾”三元组和构建这些事实的知识库方面有了重大进展。相比之下,组织意见(opinion)知识库的研究非常少,而意见中包含大量的主观信息,如评论(review)和推文(tweet)等。研究表明,意见对于用户来说是重要的,绝大多数用户会根据评论来决定购买等行为,因此一个问题应运而生:是否有一种系统的方法将意见组织到知识库中,使客户更容易理解主观数据中的意见?


现有的一些意见挖掘(opinion mining)的方法主要关注于提高意见抽取的准确性,以及在一组预定义的方面(aspect)之上对抽取的意见进行基于方面的情感分析,然而这些方法:


①不能决定意见之间的关系,举例来说,当有一个提取的意见为“very good location”,这些方法不能解释为什么“location”是“very good”的;


②简单地收集所有提取的意见会导致大量冗余,也可能导致错误的结论,举例来说,对于以下意见 {“quiet room”, “very noisy street”, “loud neighborhood”, “horrible city noise”, “quiet room”},如果意见没有按照相似度进行组织,人们可能会错误地认为“quiet room”是最受欢迎的意见。


基于以上现状,本文致力于解决以下问题:我们能否超越意见挖掘,将意见及其之间的关系统一表示到知识库中?为了理解如何最好地将意见组织成知识库,本文通过一系列注释任务分析了评论中主观信息的属性,并证实了以下几点:


①意见用短语表示,换句话说,意见是简短的,按照(opinion term, aspect term)这种形式表示,比如(“very good”,“location”),大多数意见以这种形式存在;


②解释(explanation)或推理(inference)是评论中相互关联的观点之间最常见的关系;


③许多意见和意见之间的关系是围绕特定实体的,而不是跨多个实体的,举例来说评论“Our room was very noisy as it is close to the main street”中意见“close to main street”解释意见“very noisy room”,这些意见是围绕评论讨论的这个特定的旅馆而非任意的旅馆。


在此基础上,我们提出了一种组织意见的图表示,称为意见图(Opinion Graph),它根据特定实体的评论,围绕解释关系组织意见。图的节点是一个以(opinion term, aspect term)这种形式存在的意见,并且由所有根据语义相似度与节点相近的意见组成。两个节点VV~PNK`~1AG_[_0LMVBS(JF.pngLI_8C$GVU{4EJK85YZZMF@6.png之间的边`4V3J$D)]DFUHLO$F)R$0`K.png代表VV~PNK`~1AG_[_0LMVBS(JF.png解释LI_8C$GVU{4EJK85YZZMF@6.png。我们发现这是一个组织评论意见的通用结构,这是因为:


①意见图是大量评论中意见的简洁和结构化表示;


②节点可以聚合并以不同的粒度表示意见;


③边根据评论中出现的意见来解释其他意见;


④节点中意见的来源可以追溯到提取意见的评论;


⑤意见图是一个有用的抽象,它支持一系列下游应用程序,从生成可解释的评论摘要到促进对意见短语或标准的搜索。


一个意见图的例子如下:


_84YR41P1DU}~}CR@D_HNXU.png

                                                    意见图


本文提出的构建意见图的方法为EXPLAINIT,主要包括以下4个步骤:


①挖掘意见短语;


②决定意见短语之间的解释关系;


③标准化语义相似的意见短语到一个意见簇中(聚类);


④从前面得出的的解释关系和意见簇为实体生成意见图。


注意这里是给每个特定的实体生成一个意见图,也就是说如果有多个旅馆,那么就要根据对每个旅馆的所有评论生成每个旅馆的意见图,这是由于前面所说的意见只针对特定的实体。


二、概念


8I9)4%BXWTIQHT1MP[)GSCY.png


三、框架


构建意见图的过程分为下图中展示的4部分:


$6PW[QR)G1GD3J24BL{H@TK.png

                         构建意见图的过程


  1. Opinion Mining


第一步需要从关于一个实体的评论集合中挖掘意见短语,我们利用Aspect-based Sentiment Analysis (ABSA)模型,在本文中使用这篇文章中的开源系统:Subjective Databases。这个系统同样预测每个意见短语的aspect类别和情感极性,我们利用这些额外的信号来改进意见短语标准化的过程。


  1. Explanation Mining


接着需要发现意见对之间的解释关系,我们使用众包来获取特定于某个domain的标准数据,并且开发了一个有监督的多任务分类器来发现两个意见短语之间的解释关系。


  1. Opinion Phrase Canonicalization


意见短语的规范化是指语义相似的意见短语被聚类在一起来组成意见图中的一个节点。这是必要的,因为评论在内容上有很大的重复,因此,包含许多相似的意见短语。为了规范化意见短语,我们开发了一个新的意见短语表示学习框架,该框架使用从前面步骤获得的弱监督来学习意见短语embedding,这些弱监督包括预测aspect类别、情感极性得分和解释关系。最后使用一个聚类算法来聚类学习到的意见短语embedding。


  1. Opinion Graph Generation


最后,我们提出了构建最终意见图的算法。该算法根据各节点意见短语之间的聚合解释关系来连接图节点以构建意见图。


四、 MINING EXPLANATIONS


  1. 概述


构建意见图的一个重要任务是确定一个意见短语何时能解释另一个。举例来说,“close to Muni bus stops”是“convenient location”的解释但不是“close to local attractions”的解释,“on a busy main thoroughfare”是“very noisy rooms”的解释但不是“convenient location”的解释。


从评论中挖掘意见短语的解释与两个任务相关:实体关系分类(entity relation classification)和识别文本蕴含(recognizing textual entailment,RTE)。


实体关系分类任务以文本序列和一个实体对作为输入,利用特定domain的训练数据学习对实体之间的关系进行分类。由于模型是由特定domain的任务训练和定制的,直接训练实体关系分类模型用于解释挖掘任务是不可行的。


识别文本蕴涵任务则考虑两个文本序列,通常称为前提和假设,并决定假设是否可以从前提推断出来。虽然它也考虑了两段文本之间的推理关系,但在通用文本上训练的RTE模型仍然不足以从评论中挖掘解释。这是由于两个原因:


①特定domain的知识对于理解意见关系的细微差别通常是必要的;


②在许多情况下,完整的评论对于判断可能的解释是至关重要的(如果RTE的两段输入文本是两个意见短语,那就相当于没有输入完整的评论)。


事实上在实验中直接应用从开放domain数据上训练的SOTA效果的RTE模型获得了很低的解释提取准确率(34.3%),后续实验又在评论domain上重新训练了实体关系分类和RTE模型,其效果仍然不及本文提出的方法。


  1. 数据


本文研究人员采用众包收集了旅馆和餐厅domain的实验数据集,包括对评论中的意见短语、意见短语相关性的标注(下图(a)),以及相关意见短语的关系的标注(下图(b))。下图展示了收集数据的方式:


X()7D6`KYWYD77~FYZW(XDI.png

                                                   收集数据


  1. Explanation Classifier


我们观察到意见短语周围的上下文和意见短语之间的逐词对齐(word-by-word alignment)对我们的解释挖掘任务非常有用。举例来说,“noisy room”和“right above Kearny St”可能看起来无关,由于一个关于房间是否安静,另一个是关于地理位置。然而,它们共现的评论上下文表明它们存在解释关系:“Our room was noisy. It is right above Kearny St.”。除了上下文,意见短语之间的逐字对齐也对解释挖掘非常有益。例如,两个短语““easy access to public transportation”和“convenient location”之间“easy access to”和“convenient”以及“public transportation”和“location”之间的逐词对齐使得更容易确定第一个短语解释后者。然而现有方法很少同时考虑这两种信息,实体关系分类模型关注上下文而RTE模型关注逐词对齐。


本文提出了一种多任务学习的模型叫做MaskedDualAttn,包括两个分类任务:


①评论分类:评论是否包含解释关系;


②解释分类:是否第一个意见短语解释第二个。


这种方法同时考虑上下文和逐词对齐两种信息。下图为MaskedDualAttn方法的架构图:


WD{ECNE[W0(2SS0]22KZ7_D.png

                                        MaskedDualAttn


下图总结了本小节使用的符号:


R85I]`HGFXF@LXNUVGBE5O9.png

                                          符号


  • Input and Phrase Masks


FRGKRG0OIWVVM}~JS~G$R[W.png


  • Alignment attention


AK8WP4(ZUC(85S0AUL~G[WE.png


SF%GE74F{1SITY3F`ZADSH4.png


五、CANONICALIZING OPINION PHRASES


  1. 概述


这部分的目的是为了将重复或者相似的意见短语聚类以构建一个简洁的意见图。举例来说,“one block from beach”,“close to the pacific ocean”,“unbeatable beach access”,“very close to the sea”这些短语描述的都是同一个意见。


如果使用意见短语的平均word embedding来进行聚类,效果不会很好,这是因为某些短语共享同一个aspect term或者opinion term。举例来说,“very close to the ocean”与“very close to the trams”之间的相似度比与“2 mins walk to the beach”之间的相似度更高,更多的例子查看下图:


W556F$TJ0`F80GWA{G)`265.png

                                          例子


为了使得意见短语的表示能够以语义相似度进行聚类,本文提出一种意见短语表示学习的方法来学习意见短语的表示。这种方法利用前面的步骤的结构来提供一种弱监督,包括意见挖掘阶段提供的短语的aspect类别和情感极性以及解释挖掘阶段得到的解释关系。最后使用现有的聚类方法来对意见短语的表示进行聚类。


  1. Opinion Phrase Representation Learning


本文提出的意见表示学习框架为Weakly-Supervised Opinion Phrase Embeddings (WS-OPE),有两个特性:


①意见词和aspect词分别使用不同的embedding,然后合并成意见短语embedding;


②使用弱监督来引入语义信息,包括前面步骤得到的短语的aspect类别和情感极性以及解释关系。


下图展示了WS-OPE的大体框架:


7UA%$HEYKICT`]4`]67JIZJ.png

                                       WS-OPE


下图总结了本小节使用的符号:


9$9V`G45KF5@8ENOK7~EEEO.png

                                                 符号


  • Input


A]HH$2$(2SK1GKJ4`Q_HHIJ.png


  • Opinion Phrase Encoding


$R4}ZR[7GI01[3$3IC)HQ}I.png


  • Reconstruction loss


21K9R5ALA1}WYA3%R%6T7RG.png


  • Aspect category and polarity loss


我们希望使用前面步骤得到的信息来学习更好的表示,举例来说,我们期望“friendly staff ”和“unfriendly staff”在embedding空间中不要太相近,因此我们整合aspect类别和情感极性信号来学习更好的意见短语embedding。在WS-OPE中添加两个分类任务来整合这些信息:


`}A46D7DA6HKOXS]5[%8M11.png


  • Training objective


WS-OPE的loss为:


7U8EC3ALHOO%KV9Z3S07(BA.png


  1. Clustering Opinion Phrases


U4(]WJRF_{9G33XB04TW@`X.png


六、GENERATING OPINION GRAPHS


]0T@MTY)43Z87V[(%SO]B(9.png


七、实验


  1. 解释挖掘


对比了包括实体关系分类和识别文本蕴含在内的多个baseline:


NI}PXSU9Y)KQ3GVHG[A3K)F.png

                                          解释挖掘


  1. 意见短语标准化


对比了多种方法,并且实验表明本文的方法并不局限于何种聚类方法:


]6$CX@OQE[1M9KPCEP9EO0O.png

                                      意见短语标准化


  1. 意见短语embedding的可视化


使用t-SNE可视化了平均word embedding和WS-OPE的意见短语embedding:


2B)Q7T{_GJQPQDSAR`YQ4OC.png

                                    意见短语embedding的可视化

相关文章
|
4月前
|
数据挖掘 测试技术 BI
正交缺陷分类(ODC)流程简介及应用经验分享
正交缺陷分类(ODC)是一种缺陷分析方法,合理的把它运用在项目中,可以帮助测试、开发团队改进工作,从而提高产品质量。明确 ODC 的流程及各阶段的工作重点,并借鉴本文中提到的经验建议,会让读者在运用 ODC 时更加得心应手。
129 7
正交缺陷分类(ODC)流程简介及应用经验分享
|
3月前
|
项目管理
项目里程碑定义及重要性解析
项目里程碑是项目管理中的重要工具,用于将复杂项目分解为更小的阶段,明确目标和时间节点,提高管理效率。项目管理软件可辅助创建、跟踪和管理里程碑,确保项目按计划进行。通过设定里程碑,团队可以更好地协调资源,减少不必要的重复工作,确保项目顺利推进。
76 0
|
8月前
|
监控 数据挖掘
项目组合研究的问题
项目组合管理聚焦于组织如何高效管理多个项目以达成战略目标,在资源有限时最大化整体价值。关键问题包括:战略一致性(确保项目与组织战略匹配,选择驱动战略的项目)、优先级排序(基于标准确定项目优先级,权衡收益、风险和成本)、资源配置(合理分配有限资源,平衡项目需求和优化利用率)、风险管理(识别和管理项目风险,制定应对策略)、绩效监控(建立绩效指标体系,定期审查和调整组合)、决策支持工具(使用工具和技术进行数据分析和决策)、治理结构(设计适应组织的治理框架和决策流程)以及动态调整能力(灵活应对市场变化,基于实时信息调整项目组合)。需进一步研究与项目集管理的区别。【4月更文挑战第2天】
50 1
|
8月前
|
传感器 运维
【软件设计师备考 专题 】编写外部设计文档:系统配置图和关系图
【软件设计师备考 专题 】编写外部设计文档:系统配置图和关系图
128 1
|
算法 Java 测试技术
我的算法基础实验代码-下篇
算法题目,Java语言版
82 0
|
编解码 自然语言处理 数据可视化
MIM方法为什么简单高效?可视化和大规模实验给出了答案
MIM方法为什么简单高效?可视化和大规模实验给出了答案
237 0
MIM方法为什么简单高效?可视化和大规模实验给出了答案
|
自然语言处理 数据建模 计算机视觉
实验分析非常精彩 | Transformer中的位置嵌入到底改如何看待?(一)
实验分析非常精彩 | Transformer中的位置嵌入到底改如何看待?(一)
259 0
|
存储 编解码 C++
实验分析非常精彩 | Transformer中的位置嵌入到底改如何看待?(二)
实验分析非常精彩 | Transformer中的位置嵌入到底改如何看待?(二)
591 0
编程基本功:做自解释的测试文档
编程基本功:做自解释的测试文档
64 0
编程基本功:做自解释的测试文档
|
图形学 计算机视觉
3D建模入门学习方法,制作过程的六个主要阶段讲解
从来没有接触过建模的小白们是否都很好奇 自己最喜欢的3D电影或者是游戏角色 比如说《哪吒之魔童降世》里面的哪吒 《王者荣耀》里面的人物等等 都是怎样制作出来的呢?
154 0
3D建模入门学习方法,制作过程的六个主要阶段讲解

热门文章

最新文章

下一篇
开通oss服务