文本摘要数据集的整理、总结及介绍（持续更新ing...）

2022-10-22 1282 发布于内蒙古

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 文本摘要数据集的整理、总结及介绍（持续更新ing...）

1. 数据集及其详情对照表

本文对语言的描述中，简体中文直接简称中文，繁体中文则称为繁体中文。

1.1 中文数据集

1.1.1 LCSTS数据集

大规模中文短文本摘要数据集

数据集官方网站：LCSTS: A Large-Scale Chinese Short Text Summarization Dataset-智能计算研究中心

数据集官方获取方式（来源于上一网站）：填写申请表（百度网盘地址，Dropbox地址）并发送给Qingcai Chen: qingcai.chen@hit.edu.cn 或 Baotian Hu: baotianchina@gmail.com

由于这个获取方式需要机构管理人员签字，我嫌麻烦，所以没有弄，所以我是从Heywhale网站 LCSTS短文本新闻摘要数据库 - Heywhale.com下载的数据（反正我也不用于商业用途就是了）（训练集2400591条样本，验证集10666条样本（注意这个数据里面名字叫test，但是验证集），测试集1106条样本（这个数据里面名字叫valid）。这个数据集是仅有原文和摘要文本的，没有原始数据集里面验证集和测试集里面的相关性数据）。

数据集的其他来源获取方式：

CSDN网站 LCSTS数据集.txt_lcsts数据集-机器学习其他资源-CSDN文库（可参考LCSTS中文数据集解析与处理_你的博客-CSDN博客_lcsts数据集，共208W条数据）

语料来源：新浪微博

数据收集的策略很类似pageRank思想。先找50个多领域的流行官方组织的微博用户作为种子，然后从种子用户中抓取他们关注的用户，并且按照人工手写的规则进行过滤，如将不是大V、且粉丝少于100万的用户过滤掉。然后抓取候选用户的微博内容。最后通过过滤，清洗，提取等工作得到最后的短文-摘要对格式的数据集。1

原文是微博文本，摘要是微博作者原本就提供的标题。

数据样例：

content：雅虎发布2014年第四季度财报，并推出了免税方式剥离其持有的阿里巴巴集团15％股权的计划，打算将这一价值约400亿美元的宝贵投资分配给股东。截止发稿前，雅虎股价上涨了大约7％，至51.45美元。
summary：雅虎宣布剥离阿里巴巴股份。

样本量：>200W条

此外，作者还手工标注了10,666条样本的正文和标题之间的相关性，相关性分值区间是[1,5],分值越高表示越相关。

全部数据的统计信息（来源2）：

（part2随机抽样自part1，part3独立于part1和2）各自的样本数，及人工评测得分：

样本长度：

原论文提供的baseline为RNN based encoder-decoder架构的seq2seq模型，使用数据集中part1样本为训练集，part3里评分为3、4、5的样本为测试集。以原文全文作为一个sequence进行输入。RNN使用的是GRU，模型参数随机初始化，用ADADELTA更新学习率。用beam search输出最终摘要，beam width为10。用ROUGE（ROUGE-1, ROUGE-2 and ROUGE-L）作为评估指标。

文本数据有两种预处理方式：以char（字）为单位（词表长度仅为4000）和以word（词）为单位（词表长度为50000）。

模型有两种架构：

1. 在解码阶段不使用局部上下文（local context）：用RNN作为encoder，用其最后一层hidden state作为decoder输入，如下图所示：

2. 在解码阶段使用局部上下文：用encoder的所有hidden states作为decoder的输入，如下图所示：

实验结果最好的是以字为单位预处理，含局部上下文的模型。

文中提到难点在于UNK问题（rare word problem），文中给出的解决方式是以字为单位进行预处理来规避这一问题。后来著名的copy机制也是用于解决这一问题的。

以词为单位预处理出现UNK的例子：

paperswithcode上的数据集信息：LCSTS Dataset | Papers With Code

1.2 英文数据集

1.2.1 DUC数据集

DUC2002数据集：567个样本，每个样本有一个100-word的人工撰写的摘要。2

1.2.2 TAC数据集

数据集获取地址：Text Analysis Conference (TAC) Data（其中summarization track的数据）

1.2.3 TREC数据集

一个提取数据集之后的GitHub项目：AlexisDusart/ISSumSet

1.2.4 sent_comp数据集

huggingface的数据集下载地址：sent_comp · Datasets at Hugging Face（原始数据文件也是从GitHub项目上下载的）

paperswithcode的数据集信息：Sentence Compression Dataset | Papers With Code

文本摘要数据集的整理、总结及介绍（持续更新ing...）

1. 数据集及其详情对照表