CollabRank: Towards a Collaborative Approach to Single-Document Keyphrase Extraction
CollableRank,2008年出自北京大学,和ExpandRank是同一作者。
CollableRank思想
以前的方法通常对单个文档单独执行关键字短语提取任务,而不对每个文档进行交互,假设文档被视为彼此独立。本文提出了一种新的方法CollabRank,该方法利用聚类上下文中多个文档的相互影响来协作提取单个文档关键短语。CollabRank是通过首先使用聚类算法获得适当的文档聚类,然后使用基于图的排序算法在每个聚类内进行协作单文档关键短语提取来实现的。实验结果证明了该方法的令人惊讶的效果。研究了不同的聚类算法,我们发现系统性能与文档聚类的质量正相关。
CollableRank实现
图1 CollabRank原理
聚类的效果严重影响了最终文档关键词抽取的效果。如果执行2.1(或者2.1为单一文档)的话,CollabRank将会退化成SingleRank算法,其实和TextRank没什么太大区别。
CollabRank实验
数据集:DUC2001数据集、TREC-9。
聚类方法:
1.Glod Standard Clustering:基于事实聚类,通过手动对文档进行分组的伪聚类算法。
2.K-means:基于分区的聚类算法,随即划分每个样本每个类别,相似样本尽量赋予同一个类别。
3.Aggomerative(AverageLink) Clustering:一种自底向上的分层聚类算法,从点开始作为单个聚类,并在每一步合并最相似或最接近的聚类对,直到聚类数量减少到所需数量。
其中d i 和d j 分别是在聚类c 1 和聚类c 2 中的两个文档,∣ c i ∣ 代表的每个聚类中文档的数量。
4.Agglomerative (CompleteLink) Clustering:用于衡量两个聚类中文档的最小值。
5.Divisive Clustering:它是一种自上而下的分层聚类算法,从一个全包聚类开始,在每个步骤中,使用Kmeans算法将最大的聚类(即具有最多文档的聚类)拆分为两个小聚类,直到聚类数量增加到所需数量。
6.Random Clustering:完全随即划分文档集。
聚类数量一共有30种。
表1 聚类准确率判断
表2 各种模型评价指标展示