Re34:读论文 Organizing Portuguese Legal Documents through Topic Discovery
简介:
本文是2022年SIGIR会议SIRIP(工业)track的paper,关注对法律文书的整理工作(整理、组织、摘要、发现隐主题),以巴西最高法院Jusbrasil的葡萄牙语数据集为例,进行主题建模,直接用术语表而非文档。本文主要探索各种主题建模方法在葡萄牙语数据集上的效果(我咋感觉这个工作量不高呢,是我的错觉吗还是事实如此,SIGIR不是顶会吗,就这?)。
1. 主题建模方法
CombinedTM(CTM)
Top2Vec
BERTopic
2. 数据集和指标
数据集是2K+无标签文档,和425条有标签文档。
这里面介绍了一堆硬指标软指标什么的,感觉还挺复杂的,以后做相关领域了再慢慢看。
3. 实验结果