本文是2021年ACL论文,任务是从听证会记录文本中抽取事实信息factual information(11个手动挑选出的特征),分别测试了无监督方法、弱监督方法和使用预训练模型的方法在这一任务上的效果。
数据集是自制数据,是free-form dialogue of California parole hearings,一部分数据被标注了11个特征。
本文使用的算法为:
- an unsupervised data programming paradigm extended to weak supervision:无监督 Snorkel,有监督 WSLF(逻辑回归)
- pretrained question answering models based on DistilBERT and Longformer:QA1-2
- classification models based on BERT each fine-tuned to predict a single task:Task-FT
F1值在计算时,Date和numerical经过了分箱。