阿里通义等提出Chronos:慢思考RAG技术助力新闻时间线总结

简介: 阿里通义等提出Chronos:慢思考RAG技术助力新闻时间线总结

00背景


论文:

https://arxiv.org/abs/2501.00888


Github:

https://github.com/Alibaba-NLP/CHRONOS


Demo:

https://modelscope.cn/studios/vickywu1022/CHRONOS



在数字化时代,新闻信息的指数级增长使得从海量文本中提取和整理历史事件的时间线变得至关重要。为了应对这一挑战,阿里巴巴通义实验室与上海交通大学的研究者们提出了一种基于Agent的新闻时间线摘要新框架——CHRONOS,命名自希腊神话中的时间之神柯罗诺斯,该框架通过迭代多轮的自我提问方式,结合检索增强生成技术,从互联网上检索相关事件信息,并生成时间顺序的新闻摘要,为新闻时间线摘要生成提供了一种全新的解决方案。


例如,对于新闻“国足1-0巴林”,CHRONOS能够总结海量新闻,呈现事件的来龙去脉。

对于覆盖时间更长的新闻“中国探月工程”,CHRONOS也能聚焦重点事件,呈现时间线发展,使得用户能够一目了然。


以下是论文内容的详细介绍:


01任务介绍


时间线总结(Timeline Summarization, TLS)任务是一种自然语言处理领域的经典技术挑战,它旨在从大量文本数据中提取关键事件,并按时间顺序排列,以提供对某一主题或领域历史发展的结构化视图。例如,在新闻领域,时间线总结可以帮助用户快速了解一个新闻事件的来龙去脉。该任务不仅要求识别出重要的事件,还需要理解事件之间的时间关系和因果联系,以便生成一个连贯、简洁且信息丰富的时间线摘要。


根据可检索事件的来源,可以将TLS任务细分为封闭域(closed-domain)和开放域(open-domain)两个设定:在封闭域TLS任务中,时间线是从一组预定义的、与特定主题或领域相关的新闻文章中创建的,而开放域TLS指的是从互联网上直接搜索和检索新闻文章来生成时间线的过程。过去的工作主要集中于解决封闭域上时间线生成问题,而开放域TLS则需要强大的信息检索和筛选能力,以及在没有全局视图的情况下识别和建立事件之间联系的能力,为这项任务提出了新的要求和挑战。


02CHRONOS方法


为了应对上述挑战,研究团队提出CHRONOS框架,通过迭代提问进行相关事件检索,生成准确、全面的时间线摘要,能够有效地解决开放域和封闭域两种设定下的TLS任务。


1. 动机


时间线生成的核心在于建立事件之间的时间和因果关系。每个新闻事件都可以被表示为一个不同的节点,任务的目标是建立这些节点之间的边,以展示它们的相关性,并最终形成一个异构图,从主题新闻的节点开始。因此,通过一个检索机制来检索相关的新闻文章,可以有效建立这些边,形成事件之间的联系。


2. 概述


CHRONOS利用大模型的能力,通过模拟人类信息检索的过程,即通过提出问题、基于检索结果进一步提出新的问题,最终收集关于相关事件的全面信息并总结为时间线。


CHRONOS包括以下几个模块:


  • 自我提问 (Self-Questioning):首先搜索粗粒度的新闻背景信息,然后迭代地提出问题,以检索更多相关新闻。
  • 问题改写 (Question Rewriting):将复杂或表现不佳的问题分解为更具体、更易检索的查询。
  • 时间线生成 (Timeline Generation):通过合并每一轮检索生成的时间线来总结一个突出重要事件的时间线


3. 自我提问


3.1 粗粒度背景调研

在自我提问的初始阶段,CHRONOS使用目标新闻的标题作为关键词进行搜索,以收集与目标新闻最直接相关的信息。这些信息构成了新闻背景(News Context),为自我提问打下初步基础。


3.2 提问示例选择

在粗粒度背景调研之后,CHRONOS利用大模型的上下文学习能力,通过少量样本提示来指导模型生成关于目标新闻的问题。


为了评估问题样本质量,引入了时序信息量(Chrono-Informativeness, CI)的概念,用来衡量模型提出的问题检索与参考时间线对齐事件的能力,即高CI值的问题更有可能引导检索到与目标新闻事件相关的文章,用检索生成的时间线和参考时间线中包含日期的F1分数进行衡量。


基于最大化问题集时序信息量的目标,构建一个“新闻-问题”的示例池,用于指导新目标新闻的问题生成。对于每个新的目标新闻,通过余弦相似性动态检索与目标新闻最相似的样本,确保了样本的上下文相关性和时间信息的准确性。


3.3 迭代提问

CHRONOS通过连续迭代提问,逐步深入探索事件的细节。每一轮迭代都基于前一轮的检索结果,以发现新的问题和信息,直到满足时间线中事件数量或达到最大迭代次数。


3.4 问题改写

查询改写(Query Rewriting)是检索增强生成中常用的优化方法。在CHRONOS框架中,我们通过对初始提问阶段产生的宽泛或复杂问题改写为2-3个更易于检索的子问题,能够生成更具体、更有针对性的查询,从而提高搜索引擎的检索效果。我们同样在提示中加入少量样本,指导大模型进行有效改写,将复杂问题转化为更具体的查询,同时保持问题的原始意图。


3.5 时间线生成

CHRONOS通过两阶段生成完整的时间线总结:生成(Generation)和合并(Merging)。


  • 生成:通过分析每一轮检索到的新闻文章来识别关键事件和详细信息。利用大模型的理解和生成能力,提取每个事件的发生日期和相关细节,并为每个事件撰写简洁的描述。这些事件和描述被组织成初步的时间线,按照时间顺序排列,为后续的合并阶段提供基础。
  • 合并:将多轮检索生成的初步时间线整合成一个连贯的最终摘要。这一过程涉及对齐不同时间线中的事件、解决任何日期或描述上的冲突,并选择最具代表性和重要性的事件。


03OPEN-TLS


为了评估TLS系统,研究团队收集了由专业记者撰写的关于近期新闻事件的时间线,构建了一个名为Open-TLS的新数据集。与以往封闭域的数据集相比,Open-TLS不仅在数据集规模和内容上更加多样化,覆盖政治、经济、社会、体育和科学技术等多个领域,而且在时效性上更具优势,为开放域TLS任务提供了一个更全面和更具挑战性的基准。


04实验结果


1. 实验设定


实验基于GPT-3.5-Turbo、GPT-4和Qwen2.5-72B分别构建CHRONOS系统,评测开放域和封闭域两个设定下TLS的性能表现。使用的评估指标主要有:


  • ROUGE-N: 衡量生成时间线和参考时间线之间的N-gram重叠。具体包括:(1)Concat F1:通过将所有日期摘要连接起来计算ROUGE,以评估整体的一致性;(2)Agree F1:仅使用匹配日期的摘要计算ROUGE,以评估特定日期的准确性;(3)Align F1:在计算ROUGE之前,先根据相似性和日期接近性对预测摘要和参考摘要进行对齐,评估对齐后的一致性。
  • Date F1:衡量生成时间线中日期与参考时间线中真实日期匹配程度。


2. 开放域TLS


在开放域TLS的实验中,CHRONOS与几个基线方法进行了比较,包括直接搜索目标新闻(DIRECT)和重写目标新闻以创建查询用于检索(REWRITE)。对比之下,CHRONOS通过迭代自我提问和检索相关新闻文章的方法,显著提高了事件总结的质量和日期对齐的准确性,在所有指标上都领先于基线方法。


3. 封闭域TLS


在封闭域TLS的实验中,CHRONOS与之前的代表性工作进行了比较,包括:(1)基于事件聚合方法的CLUST (Gholipour Ghalandari and. Ifrim, 2020);(2)基于事件图模型EGC(Li et al., 2021)和(3)利用大模型进行事件聚类的LLM-TLS(Hu et al., 2024)。在Crisis和T17这两个经典数据集上的比较结果显示,CHRONOS达到了与这些工作类似的表现,在两个数据集的AR-2指标上取得了SOTA效果,证明了其在不同类型事件和时间跨度上的强大性能和适应性。


4. 运行时间分析


CHRONOS的另一个优势体现在效率方面。与同样基于大模型、但需要处理新闻库中所有文章的LLM-TLS方法相比,它通过检索增强机制专注于最相关的新闻文章,显著减少了处理时间。这种效率的提升使其在实际应用中更为实用,尤其是在需要快速响应的场景中。

05Case Study


深入分析了模型在处理具体新闻事件时的表现,通过选择具有代表性的新闻事件,如苹果公司的重大产品发布,能够观察到CHRONOS如何通过由浅入深的自我提问和信息检索来生成时间线。在案例研究中,CHRONOS展示了其能够准确提取关键事件和日期的能力,同时也揭示了在某些情况下可能需要改进的地方,例如对某些事件的遗漏或日期幻觉。


06结语


CHRONOS框架通过结合大型语言模型的迭代自我提问和检索增强生成技术,为时间线总结任务提供了一种新颖且有效的解决方案。这种方法的核心在于模拟人类的信息检索过程,通过不断地提出和回答新问题来逐步深入理解事件,最终生成一个全面且连贯的时间线摘要。


实验结果已经充分证明了CHRONOS在复杂事件检索和构建时间线方面的能力,展示了该框架在实际新闻时间线生成应用中的应用潜力和准确性。同时,这种迭代提问的检索生成方法是否具有泛化到通用任务上的能力也值得未来进一步研究。


Reference:

[1] Demian Gholipour Ghalandari and Georgiana Ifrim. 2020. Examining the state-of-the-art in news timeline summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 1322–1334, Online. Association for Computational Linguistics.


[2] Manling Li, Tengfei Ma, Mo Yu, Lingfei Wu, Tian Gao, Heng Ji, and Kathleen McKeown. 2021. Timeline summarization based on event graph compression via time-aware optimal transport. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 6443–6456, Online and Punta Cana, Dominican Republic. Association for Computational Linguistics.


[3] Qisheng Hu, Geonsik Moon, and Hwee Tou Ng. 2024. From moments to milestones: Incremental timeline summarization leveraging large language models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 7232–7246, Bangkok, Thailand. Association for Computational Linguistics.

相关文章
|
7月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
2148 4
|
7月前
|
存储 机器学习/深度学习 人工智能
大模型微调技术:LoRA原理与实践
本文深入解析大语言模型微调中的关键技术——低秩自适应(LoRA)。通过分析全参数微调的计算瓶颈,详细阐述LoRA的数学原理、实现机制和优势特点。文章包含完整的PyTorch实现代码、性能对比实验以及实际应用场景,为开发者提供高效微调大模型的实践指南。
3057 3
|
7月前
|
机器学习/深度学习 缓存 监控
大模型推理优化技术:KV缓存机制详解
本文深入探讨了大语言模型推理过程中的关键技术——KV缓存(Key-Value Cache)机制。通过对Transformer自注意力机制的分析,阐述了KV缓存的工作原理、实现方式及其对推理性能的显著优化效果。文章包含具体的代码实现和性能对比数据,为开发者理解和应用这一关键技术提供实践指导。
2178 8
|
7月前
|
人工智能 机器人 人机交互
当AI学会“看、听、懂”:多模态技术的现在与未来
当AI学会“看、听、懂”:多模态技术的现在与未来
461 117
|
8月前
|
监控 JavaScript Java
基于大模型技术的反欺诈知识问答系统
随着互联网与金融科技发展,网络欺诈频发,构建高效反欺诈平台成为迫切需求。本文基于Java、Vue.js、Spring Boot与MySQL技术,设计实现集欺诈识别、宣传教育、用户互动于一体的反欺诈系统,提升公众防范意识,助力企业合规与用户权益保护。
|
7月前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
1226 23
|
7月前
|
机器学习/深度学习 存储 并行计算
大模型推理加速技术:FlashAttention原理与实现
本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈,详细阐述FlashAttention的IO感知算法设计、前向反向传播实现,以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南,为开发者提供高效注意力计算的全套解决方案。
1418 10
|
7月前
|
人工智能 文字识别 自然语言处理
从“看见”到“预见”:合合信息“多模态文本智能技术”如何引爆AI下一场革命。
近期,在第八届中国模式识别与计算机视觉学术会议(PRCV 2025)上,合合信息作为承办方举办了“多模态文本智能大模型前沿技术与应用”论坛,汇聚了学术界的顶尖智慧,更抛出了一颗重磅“炸弹”——“多模态文本智能技术”概念。
305 1
|
7月前
|
存储 人工智能 算法
大模型4-bit量化技术详解
本文系统阐述大语言模型的4-bit量化技术,深入解析GPTQ、AWQ等主流量化方法的原理与实现。通过详细的数学推导、代码实现和实验对比,展示4-bit量化如何将模型内存占用降低75%以上同时保持模型性能。文章涵盖量化感知训练、后训练量化、混合精度量化等关键技术,为开发者提供完整的模型压缩解决方案。
1713 7
|
7月前
|
监控 算法 测试技术
大模型推理服务优化:动态批处理与连续批处理技术
本文系统阐述大语言模型推理服务中的关键技术——动态批处理与连续批处理。通过分析传统静态批处理的局限性,深入解析动态批处理的请求调度算法、内存管理策略,以及连续批处理的中断恢复机制。文章包含完整的服务架构设计、核心算法实现和性能基准测试,为构建高性能大模型推理服务提供全面解决方案。
960 3

热门文章

最新文章