文本摘要数据集的整理、总结及介绍(持续更新ing...)

简介: 文本摘要数据集的整理、总结及介绍(持续更新ing...)

1. 数据集及其详情对照表


本文对语言的描述中,简体中文直接简称中文,繁体中文则称为繁体中文。

image.png

image.png


1.1 中文数据集

1.1.1 LCSTS数据集

大规模中文短文本摘要数据集


数据集官方网站:LCSTS: A Large-Scale Chinese Short Text Summarization Dataset-智能计算研究中心


数据集官方获取方式(来源于上一网站):填写申请表(百度网盘地址,Dropbox地址)并发送给Qingcai Chen: qingcai.chen@hit.edu.cn 或 Baotian Hu: baotianchina@gmail.com

由于这个获取方式需要机构管理人员签字,我嫌麻烦,所以没有弄,所以我是从Heywhale网站 LCSTS短文本新闻摘要数据库 - Heywhale.com下载的数据(反正我也不用于商业用途就是了)(训练集2400591条样本,验证集10666条样本(注意这个数据里面名字叫test,但是验证集),测试集1106条样本(这个数据里面名字叫valid)。这个数据集是仅有原文和摘要文本的,没有原始数据集里面验证集和测试集里面的相关性数据)。


数据集的其他来源获取方式:

 CSDN网站 LCSTS数据集.txt_lcsts数据集-机器学习其他资源-CSDN文库(可参考LCSTS中文数据集解析与处理_你的博客-CSDN博客_lcsts数据集,共208W条数据)


语料来源:新浪微博

数据收集的策略很类似pageRank思想。先找50个多领域的流行官方组织的微博用户作为种子,然后从种子用户中抓取他们关注的用户,并且按照人工手写的规则进行过滤,如将不是大V、且粉丝少于100万的用户过滤掉。然后抓取候选用户的微博内容。最后通过过滤,清洗,提取等工作得到最后的短文-摘要对格式的数据集。1

原文是微博文本,摘要是微博作者原本就提供的标题。


数据样例:

content:雅虎发布2014年第四季度财报,并推出了免税方式剥离其持有的阿里巴巴集团15%股权的计划,打算将这一价值约400亿美元的宝贵投资分配给股东。截止发稿前,雅虎股价上涨了大约7%,至51.45美元。
summary:雅虎宣布剥离阿里巴巴股份。


样本量:>200W条

此外,作者还手工标注了10,666条样本的正文和标题之间的相关性,相关性分值区间是[1,5],分值越高表示越相关。


全部数据的统计信息(来源2):

(part2随机抽样自part1,part3独立于part1和2)各自的样本数,及人工评测得分:

image.png


样本长度:

image.png


原论文提供的baseline为RNN based encoder-decoder架构的seq2seq模型,使用数据集中part1样本为训练集,part3里评分为3、4、5的样本为测试集。以原文全文作为一个sequence进行输入。RNN使用的是GRU,模型参数随机初始化,用ADADELTA更新学习率。用beam search输出最终摘要,beam width为10。用ROUGE(ROUGE-1, ROUGE-2 and ROUGE-L)作为评估指标。

文本数据有两种预处理方式:以char(字)为单位(词表长度仅为4000)和以word(词)为单位(词表长度为50000)。

模型有两种架构:

1. 在解码阶段不使用局部上下文(local context):用RNN作为encoder,用其最后一层hidden state作为decoder输入,如下图所示:

image.png


2. 在解码阶段使用局部上下文:用encoder的所有hidden states作为decoder的输入,如下图所示:

image.png


实验结果最好的是以字为单位预处理,含局部上下文的模型。


文中提到难点在于UNK问题(rare word problem),文中给出的解决方式是以字为单位进行预处理来规避这一问题。后来著名的copy机制也是用于解决这一问题的。

以词为单位预处理出现UNK的例子:

image.png


paperswithcode上的数据集信息:LCSTS Dataset | Papers With Code


1.2 英文数据集

1.2.1 DUC数据集

DUC2002数据集:567个样本,每个样本有一个100-word的人工撰写的摘要。2


1.2.2 TAC数据集

数据集获取地址:Text Analysis Conference (TAC) Data(其中summarization track的数据)


1.2.3 TREC数据集

一个提取数据集之后的GitHub项目:AlexisDusart/ISSumSet


1.2.4 sent_comp数据集

huggingface的数据集下载地址:sent_comp · Datasets at Hugging Face(原始数据文件也是从GitHub项目上下载的)

paperswithcode的数据集信息:Sentence Compression Dataset | Papers With Code


相关文章
|
机器学习/深度学习 自然语言处理 算法
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
本文是作者在学习文本摘要任务的过程中,根据学习资料总结逐步得到并整理为成文的相关内容。相关学习资料(包括论文、博文、视频等)都会以脚注等形式标明。有一些在一篇内会导致篇幅过长的内容会延伸到其他博文中撰写,但会在本文中提供超链接。 本文将主要列举里程碑式的重要文本摘要论文。 注意:除文首的表格外,本文所参考的论文,如本人已撰写对应的学习博文,则不直接引用原论文,而引用我撰写的博文。 本文会长期更新。
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
|
机器学习/深度学习 自然语言处理 算法
【文本摘要(1)】抽取式之textrank(无监督学习):生成200字以内摘要
【文本摘要(1)】抽取式之textrank(无监督学习):生成200字以内摘要
360 0
可控细节的长文档摘要,探索开源LLM工具与实践
本文通过将文档分为几部分来解决这个问题,然后分段生成摘要。在对大语言模型进行多次查询后,可以重建完整的摘要。通过控制文本块的数量及其大小,我们最终可以控制输出中的细节级别。
|
11月前
|
Java API 数据安全/隐私保护
(工作经验)优雅实现接口权限校验控制:基于自定义注解、AOP与@ConditionalOnProperty配置开关的通用解决方案
(工作经验)优雅实现接口权限校验控制:基于自定义注解、AOP与@ConditionalOnProperty配置开关的通用解决方案
360 1
|
9月前
|
搜索推荐 物联网 PyTorch
Qwen2.5-7B-Instruct Lora 微调
本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
10011 34
Qwen2.5-7B-Instruct Lora 微调
|
10月前
|
缓存 人工智能 自然语言处理
GraphRAG、Naive RAG框架总结主流框架推荐(共23个):LightRAG、nano-GraphRAG、Fast-GraphRAG、Dify、RAGflow等
GraphRAG、Naive RAG框架总结主流框架推荐(共23个):LightRAG、nano-GraphRAG、Fast-GraphRAG、Dify、RAGflow等
|
10月前
|
人工智能 弹性计算 网络安全
一键玩转CoAI:AI工程变现新模式
CoAI是一款强大的AI管理软件,支持多种大模型如OpenAI、通义千问等,具备丰富的UI设计、多模型管理、弹性计费等功能,既适合个人使用也支持企业级部署,帮助用户轻松管理和商业化AI能力。
|
前端开发 JavaScript 应用服务中间件
说一说跨域和如何解决
说一说跨域和如何解决
|
安全 测试技术 Swift
Llama 3开源,魔搭社区手把手带你推理,部署,微调和评估
Meta发布了 Meta Llama 3系列,是LLama系列开源大型语言模型的下一代。在接下来的几个月,Meta预计将推出新功能、更长的上下文窗口、额外的模型大小和增强的性能,并会分享 Llama 3 研究论文。
Llama 3开源,魔搭社区手把手带你推理,部署,微调和评估
|
人工智能 测试技术 UED
论文介绍:ReALM——作为语言建模的参考解析
【4月更文挑战第8天】Apple研究员提出的ReALM框架旨在改善AI在处理上下文信息时的准确性和自然性,特别是对于屏幕内容的理解。通过将参考解析转化为语言建模,ReALM能有效编码和解析屏幕实体,提高智能助手处理用户查询的能力。实验显示,ReALM在处理屏幕、对话和背景实体参考时超越了GPT-3.5和GPT-4。尽管存在挑战,如复杂空间位置理解的局限性,但ReALM为智能助手的交互体验带来了显著提升,且其模块化设计利于升级和维护。
360 2
论文介绍:ReALM——作为语言建模的参考解析