面向长文本的多模型协作摘要架构:多LLM文本摘要方法

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 多LLM摘要框架通过生成和评估两个步骤处理长文档,支持集中式和分散式两种策略。每个LLM独立生成文本摘要,集中式方法由单一LLM评估并选择最佳摘要,而分散式方法则由多个LLM共同评估,达成共识。论文提出两阶段流程:先分块摘要,再汇总生成最终摘要。实验结果显示,多LLM框架显著优于单LLM基准,性能提升最高达3倍,且仅需少量LLM和一轮生成评估即可获得显著效果。

多LLM摘要框架在每轮对话中包含两个基本步骤:生成和评估。这些步骤在多LLM分散式摘要和集中式摘要中有所不同。在两种策略中,k个不同的LLM都会生成多样化的文本摘要。然而在评估阶段,多LLM集中式摘要方法使用单个LLM来评估摘要并选择最佳摘要,而分散式多LLM摘要则使用k个LLM进行评估。

论文提出的方法旨在处理长文本文档输入,这类文档可能包含数万字,通常超出大多数标准LLM的上下文窗口限制,论文建立了一个两阶段处理流程:首先将源文档分块,独立summarize每个源文档块,然后对连接后的中间结果进行第二轮分块和摘要。在这两个阶段中,两种框架都允许多个LLM协作,最终收敛到一个高质量的完整原始参考文档摘要。

集中式多LLM摘要

单轮处理

每个LLM接收一次提示,生成各自的摘要。然后通过单一评估步骤选择最佳的最终摘要。

在单轮设置中,每个参与模型列表中的LLM都使用相同的提示P独立生成输入文本的摘要。对于每个LLM Mj ∈ M,输出为Sj = Mj(P,S),其中S表示输入文本。对所有Mj运行此步骤会得到一组摘要S = {S1,...,Sk}。从概念上讲,每个模型都贡献其独特的视角,产生多样化的候选摘要池,这对后续评估阶段的稳健摘要选择非常重要。

在收集候选摘要集S后,中央代理C ∈ M对这些摘要进行评估。中央LLM C使用评估提示Pec来评估每个摘要的质量。形式上表示为E = C(Pec, S),其中E是中央LLM对所有候选摘要的评估。这包括选择最佳摘要(以其匿名标识符表示)以及该评估的置信度分数(以0到10的整数表示)。将标识符去匿名化以恢复所选摘要Sj的文本,并将其设置为最终输出S*。在单轮机制中,此时终止流程,不再进行后续迭代。

对话式处理

生成和评估阶段会重复多次。每个生成-评估过程定义为一轮,并定义了流程结束或开始新一轮的条件,直到达到最大轮次。

对话式处理的第一轮与单轮程序相似。每个LLM Mj使用提示P从原始输入文本S生成初始摘要S(1)j:S(1) = Mj(P,S)。如果上一轮评估结果的置信度分数低于阈值,或者LLM未能输出可读的置信度分数,流程将进入下一轮。在第二轮及后续轮次中,使用提示P(i)。后续轮次中的LLM可以访问待摘要文本和上一轮的摘要。具体来说,在第i轮(i > 1):S(i)j = Mj(P(i),S)。

第i轮(i > 1)的评估阶段在概念上与单轮设置相似,但现在是对生成阶段刚刚产生的候选摘要Si = {S1(i), ..., Sk(i)}进行操作。中央LLM C使用Pec评估这些候选摘要:E(i) = C(Pec, Si)。如果置信度达到阈值,流程终止,中央LLM选择的摘要被接受为S*。否则,流程进入下一轮摘要生成和评估。

分散式多LLM摘要

单轮处理

生成程序与集中式方法相同。多个LLM独立生成输入文本的摘要,获得摘要列表S = {S1,...,Sk}。

在评估阶段,每个生成摘要的模型都会收到一个新的评估提示,该提示不包含置信度,并收到待摘要文本以及包括自己在内的所有代理生成的摘要。形式上,收集模型偏好E(i),...,E(i),其中每个E(i)代表模型Mj对S(i),...,S(i)中最佳摘要的选择。当大多数模型选择相同的摘要时,即达成收敛。当没有出现多数选择时,在单轮方法(tmax = 1)中,算法选择指定的决胜模型Mt的摘要。

对话式处理

生成遵循与集中式方法相同的方法,产生摘要集S = S1,...,Sk。与单轮方法的一个关键区别在于条件重生成机制:当第一轮未达成共识时,后续轮次使用包含先前评估生成的摘要的新提示。

第一轮评估与单轮方法相同,但在未达成共识时会进入带有新生成提示的额外轮次。在单轮情况下,未达成共识会立即触发决胜模型机制。相比之下,对话式方法会使用更新的提示启动新的生成-评估轮次。这个过程持续进行,直到出现多数共识或达到tmax轮。在tmax轮后仍未达成共识时,算法默认使用决胜机制。

实验设置

实验使用ArXiv和GovReport数据集评估摘要方法。使用ROUGE-1、ROUGE-L、BLEU-1和BLEU-4指标评估LLM生成摘要的质量。为了与多LLM方法进行比较,采用GPT-3.5、GPT-4o、GPT-4o mini和LLaMA3-8B作为基准。所有模型使用4K字符的块大小,最终摘要表示为生成摘要的连接。

评估结果

分散式和集中式多LLM方法的结果。

多LLM方法不同评估和决胜模型的结果。

  • 多LLM框架显著优于单一LLM基准,在某些情况下性能提升高达3倍
  • 集中式多LLM方法平均提升得分73%,而分散式方法平均提升70%
  • 仅使用两个LLM和单轮生成评估就能获得显著的性能提升,表明该方法具有成本效益
  • 该框架在不同的中央模型(评估器)和决胜模型中表现稳定
  • 超过两个LLM和额外的生成评估轮次并未带来进一步改进

实现代码

 fromlangchain_ollamaimportChatOllama  

 gemma2=ChatOllama(model="gemma2:9b", temperature=0)  
 llama3=ChatOllama(model="llama3:8b", temperature=0)  
 llama3_1=ChatOllama(model="llama3.1:8b", temperature=0)

 prompt_initial_summary="""  
 Provide a concise summary of the text in around 160 words.   
 Output the summary text only and nothing else.

提示词

 prompt_initial_summary = """
 Provide a concise summary of the text in around 160 words. 
 Output the summary text only and nothing else.

{text}

 """.strip()

 prompt_subsequent_summary = """
 Given the original text below, along with the summaries of that text by 3 LLMs,
 please generate a better summary of the original text in about 160 words.
 ORIGINAL:

{text}

 Summary by agent_1:

{summary_1}

 Summary by agent_2:

{summary_2}

 Summary by agent_3:

{summary_3}

 """.strip()

 prompt_decentralised_evaluation = """
 Given the original text below, along with the summaries of that text by 3 agents,
 please evaluate the summaries and output the name of the agent that has the best summary. 
 Output the exact name only and nothing else.
 ORIGINAL:

{text}

 Summary by agent_1:

{summary_1}

 Summary by agent_2:

{summary_2}

 Summary by agent_3:

{summary_3}

 """.strip()

 prompt_centralised_evaluation = """
 Given the initial text below, along with the summaries of that text by 3 LLMs,
 please evaluate the generated summaries and output the name of the LLM has the best summary. 
 On a separate line indicate a confidence level between 0 and 10.

 ORIGINAL:

{text}

 Summary by agent_1:

{summary_1}

 Summary by agent_2:

{summary_2}

 Summary by agent_3:

{summary_3}


 Remember, on a separate line indicate a confidence level between 0 and 10.
 """.strip()

 prompt_concate = """
 Provide a concise summary of the text in around 160 words. 
 Output the summary text only and nothing else.

{summaries}

 """.strip()

汇总

 class SingleTurnCentralised():  
     def __init__(self, models):  
         self.models = models  

     def generate(self, text):  
         summaries = []  
         for model in self.models:  
             summaries.append(model.invoke([{"role": "user", "content": prompt_initial_summary.format(text=text)}]).content)  
         return summaries  

     def evaluate(self, text, summaries):  
         response = gemma2.invoke([  
             {"role": "user", "content": prompt_centralised_evaluation.format(text=text, summary_1=summaries[0], summary_2=summaries[1], summary_3=summaries[2])}  
         ]).content  
         winner, *_, confidence = response.split()  
         return winner, confidence  

     def __call__(self, chunks):  
         summarised_chunks = []  
         for chunk in chunks:  
             summaries = self.generate(chunk)  
             winner, confidence = self.evaluate(chunk, summaries)  
             summarised_chunks.append(summaries[int(winner[-1]) -1])  

         final_summary = gemma2.invoke([{"role": "user", "content": prompt_concate.format(summaries="\n".join(summarised_chunks))}]).content  
         return final_summary  

 single_turn_centralised = SingleTurnCentralised([gemma2, llama3, llama3_1])  
 final_summary = single_turn_centralised(chunks)

论文地址

Multi-LLM Text Summarization

https://avoid.overfit.cn/post/ba136ba242694d68bce4c5499c85c647

作者: Ritvik Rastogi

目录
相关文章
|
8月前
|
机器学习/深度学习 人工智能 监控
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
大型动作模型(LAMs)作为人工智能新架构,融合神经网络与符号逻辑,实现企业重复任务的自动化处理。通过神经符号集成、动作执行管道、模式学习、任务分解等核心技术,系统可高效解析用户意图并执行复杂操作,显著提升企业运营效率并降低人工成本。其自适应学习能力与上下文感知机制,使自动化流程更智能、灵活,为企业数字化转型提供坚实支撑。
550 0
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
|
7月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
313 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
8月前
|
机器学习/深度学习 存储 人工智能
RAG系统文本检索优化:Cross-Encoder与Bi-Encoder架构技术对比与选择指南
本文将深入分析这两种编码架构的技术原理、数学基础、实现流程以及各自的优势与局限性,并探讨混合架构的应用策略。
612 10
RAG系统文本检索优化:Cross-Encoder与Bi-Encoder架构技术对比与选择指南
|
6月前
|
机器学习/深度学习 存储 缓存
115_LLM基础模型架构设计:从Transformer到稀疏注意力
大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展望未来架构发展方向。通过数学推导和实践案例,为构建高效、强大的LLM提供全面指导。
984 0
|
6月前
|
机器学习/深度学习 自然语言处理 算法
48_动态架构模型:NAS在LLM中的应用
大型语言模型(LLM)在自然语言处理领域的突破性进展,很大程度上归功于其庞大的参数量和复杂的网络架构。然而,随着模型规模的不断增长,计算资源消耗、推理延迟和部署成本等问题日益凸显。如何在保持模型性能的同时,优化模型架构以提高效率,成为2025年大模型研究的核心方向之一。神经架构搜索(Neural Architecture Search, NAS)作为一种自动化的网络设计方法,正在为这一挑战提供创新性解决方案。本文将深入探讨NAS技术如何应用于LLM的架构优化,特别是在层数与维度调整方面的最新进展,并通过代码实现展示简单的NAS实验。
326 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
15_批量处理文本:LLM在数据集上的应用
在大语言模型(LLM)的实际应用中,我们很少只处理单条文本。无论是数据分析、内容生成还是模型训练,都需要面对海量文本数据的处理需求。批量处理技术是连接LLM与实际应用场景的关键桥梁,它能够显著提升处理效率、降低计算成本,并实现更复杂的数据流水线设计。
308 0
|
6月前
|
机器学习/深度学习 缓存 自然语言处理
11_文本总结实战:用LLM浓缩长文章
在信息爆炸的时代,面对海量的长文本内容,如何高效地提取核心信息成为一项关键技能。文本摘要作为自然语言处理(NLP)中的重要任务,能够将冗长的文本压缩为保留核心信息的简短摘要,极大地提高了信息获取和处理的效率。随着大语言模型(LLM)技术的快速发展,特别是基于Transformer架构的模型如BART的出现,文本摘要技术取得了突破性进展。
609 0
|
6月前
|
人工智能 自然语言处理 监控
09_LLM评估方法:如何判断模型性能的好坏
在2025年的今天,大语言模型(LLM)已经成为人工智能领域的核心技术,它们能够理解和生成人类语言,执行复杂的认知任务。然而,随着模型能力的不断提升,如何科学、全面地评估这些模型的性能,成为了一个至关重要的问题。
682 0
|
8月前
|
编解码 文字识别 自然语言处理
Dots.ocr:告别复杂多模块架构,1.7B参数单一模型统一处理所有OCR任务22
Dots.ocr 是一款仅1.7B参数的视觉语言模型,正在重塑文档处理技术。它将布局检测、文本识别、阅读顺序理解和数学公式解析等任务统一于单一架构,突破传统OCR多模块流水线的限制。在多项基准测试中,其表现超越大参数模型,展现出“小而精”的实用价值,标志着OCR技术向高效、统一、灵活方向演进。
868 0
Dots.ocr:告别复杂多模块架构,1.7B参数单一模型统一处理所有OCR任务22
|
9月前
|
存储 人工智能 调度
上海创智学院联合无问芯穹发布Megrez2.0,本征架构突破端模型不可能三角,以终端算力撬动云端智能
终端是实现数字智能和生命智能自由交互的重要接口,持续帮助人类拓展生产能力的边界。当下,终端智能面临着“能效-空间-智能”的不可能三角:以DeepSeek-R1为例,其参数规模高达6710亿,超出了大部分笔记本电脑的内存容量;即使勉强在一台笔记本电脑上成功运行满血版模型,理论上坚持不到9分钟就会耗尽电池;如果通过蒸馏,将满血版模型压缩到更小尺寸,此时的精度损失又可能满足不了智能水平的要求。
215 0
上海创智学院联合无问芯穹发布Megrez2.0,本征架构突破端模型不可能三角,以终端算力撬动云端智能