CollabRank论文解读

简介: 以前的方法通常对单个文档单独执行关键字短语提取任务,而不对每个文档进行交互,假设文档被视为彼此独立。

CollabRank: Towards a Collaborative Approach to Single-Document Keyphrase Extraction


CollableRank,2008年出自北京大学,和ExpandRank是同一作者。


CollableRank思想


以前的方法通常对单个文档单独执行关键字短语提取任务,而不对每个文档进行交互,假设文档被视为彼此独立。本文提出了一种新的方法CollabRank,该方法利用聚类上下文中多个文档的相互影响来协作提取单个文档关键短语。CollabRank是通过首先使用聚类算法获得适当的文档聚类,然后使用基于图的排序算法在每个聚类内进行协作单文档关键短语提取来实现的。实验结果证明了该方法的令人惊讶的效果。研究了不同的聚类算法,我们发现系统性能与文档聚类的质量正相关。


CollableRank实现


73c6b0487a8a4f89b000c05c7cfdc069.png


图1 CollabRank原理


聚类的效果严重影响了最终文档关键词抽取的效果。如果执行2.1(或者2.1为单一文档)的话,CollabRank将会退化成SingleRank算法,其实和TextRank没什么太大区别。


CollabRank实验


数据集:DUC2001数据集、TREC-9。


聚类方法:


1.Glod Standard Clustering:基于事实聚类,通过手动对文档进行分组的伪聚类算法。


2.K-means:基于分区的聚类算法,随即划分每个样本每个类别,相似样本尽量赋予同一个类别。


3.Aggomerative(AverageLink) Clustering:一种自底向上的分层聚类算法,从点开始作为单个聚类,并在每一步合并最相似或最接近的聚类对,直到聚类数量减少到所需数量。

image.png


其中d i 和d j 分别是在聚类c 1 和聚类c 2 中的两个文档,∣ c i ∣ 代表的每个聚类中文档的数量。


4.Agglomerative (CompleteLink) Clustering:用于衡量两个聚类中文档的最小值。


image.png


5.Divisive Clustering:它是一种自上而下的分层聚类算法,从一个全包聚类开始,在每个步骤中,使用Kmeans算法将最大的聚类(即具有最多文档的聚类)拆分为两个小聚类,直到聚类数量增加到所需数量。


6.Random Clustering:完全随即划分文档集。


聚类数量一共有30种。


表1 聚类准确率判断


a7b61156b7f04ac2a0d2089efb5cfa0f.png


表2 各种模型评价指标展示


922e2f2e77354c6eaee67a9b673a5e30.png

目录
相关文章
|
7月前
|
机器学习/深度学习 决策智能
2024年1月论文推荐
2024年1月论文推荐
94 1
|
7月前
|
机器学习/深度学习 人工智能 计算机视觉
2023年12月 论文推荐
12月已经过了一半了,还有2周就是2024年了,我们来推荐下这两周我发现的一些好的论文,另外再推荐2篇很好的英文文章。
177 1
|
7月前
|
机器学习/深度学习 传感器 自动驾驶
2024年1月的论文推荐
又到月底了,在月初推荐论文的基础上又整理了10篇推荐阅读的论文
98 2
|
机器学习/深度学习 自然语言处理 算法
WikiRank论文解读
WikiRank是2018年提出来的,作者认为背景知识可以提供文档的有价值信息,但是它们很少呗应用到关键词抽取任务中来。
99 0
|
机器学习/深度学习 编解码 自然语言处理
Segmenter论文解读
图像分割通常在单个图像patch的级别上是模糊的,并且需要上下文信息来达成标签共识。本文介绍了一种用于语义分割的transformer模型——segmenter。
334 0
|
自然语言处理 并行计算 算法
PositionRank论文解读
PositionRank是2017年提出的论文,是一种用于从学术文档中提取关键短语的无监督模型,它将单词出现的所有位置的信息合并到有偏置的PageRank中。
131 0
|
自然语言处理 算法
EmbedRank论文解读
EmbedRank筛选关键词是通过关键词句子的嵌入和完整文档的嵌入之间的距离获得的信息量
140 0
|
算法 数据挖掘
TopicRank论文解读
TopicRank是2013年的一种无监督关键词抽取算法,其还是一种基于图的关键词抽取算法,主要创新点在于会依赖文档的主题进行辅助辅助排序。候选关键词将以主题进行划分,被用作完整的词图节点。
174 0
|
算法 搜索推荐 Windows
ExpandRank论文解读
ExpandRank是出自北京大学2008年的老论文,其实现思想为:现有的单文档关键字短语提取方法通常只使用指定文档中包含的信息。
78 0
|
自然语言处理 算法 搜索推荐
2023年3月的10篇论文推荐
三月有很多的重大产品发布,包括刚刚发布的GPT4,还有Meta刚发布就被泄露的LLaMA,midjourney V5,还有ChatGPT的API(非常便宜)等等。
276 0
下一篇
DataWorks