RouteLLM:高效LLM路由框架,可以动态选择优化成本与响应质量的平衡

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 新框架提出智能路由选择在强弱语言模型间,利用用户偏好的学习来预测强模型胜率,基于成本阈值做决策。在大规模LLMs部署中,该方法显著降低成本而不牺牲响应质量。研究显示,经过矩阵分解和BERT等技术训练的路由器在多个基准上提升性能,降低强模型调用,提高APGR。通过数据增强,如MMLU和GPT-4评审数据,路由器在GSM8K、MMLU等测试中展现出色的性能提升和成本效率。未来将测试更多模型组合以验证迁移学习能力。该框架为LLMs部署提供了成本-性能优化的解决方案。

该论文提出了一个新的框架,用于在强模型和弱模型之间进行查询路由选择。通过学习用户偏好数据,预测强模型获胜的概率,并根据成本阈值来决定使用哪种模型处理查询 。该研究主要应用于大规模语言模型(LLMs)的实际部署中,通过智能路由在保证响应质量的前提下显著降低成本。

通过创新的路由框架和算法,有效地在强模型和弱模型之间进行查询路由选择,大幅度降低了成本,同时保持了响应质量。

图是dalle生成的,看着还不错

论文创新

  • 矩阵分解方法:采用了推荐系统中的矩阵分解技术,通过训练偏好数据来揭示隐藏的评分函数,从而确定不同模型对查询的质量 。
  • BERT分类器:使用了标准的文本分类方法,通过全参数微调BERT模型来进行查询路由决策 。
  • 因果LLM分类器:通过参数化Llama 3模型,并采用指令跟随范式来预测查询的胜率 。

性能提升的量化数据

使用来自Chatbot Arena的80k对战数据作为训练数据,进一步通过增强数据集(如MMLU验证集和GPT-4评审数据)来提高路由器性能。在多个基准上评估路由器的性能,包括开放式问答、文科和数学问题,展示了路由器在不同数据集上的广泛适应性和优越性能 。

在MT Bench基准测试中,使用Darena数据集训练的因果LLM路由器相比随机路由器,能够将所需调用强模型的比例从49.03%降低到28.82%,并且在增强数据集(Djudge)后,进一步降低到31.50%。APGR(平均性能提升)也从0.573提高到0.679,表现出14.6%到35.8%的改进。类似地,矩阵分解路由器在增强数据集后,APGR达到了0.802,展示了60.4%的显著提升。

在MMLU测试中,所有路由器在仅使用Darena数据集训练时表现较差,但通过增强数据集(Dgold),性能显著提升。例如,因果LLM路由器的CPT(50%)从56.09%降低到35.49%,APGR从0.461提高到0.600,显示了19.9%的改进。同样,矩阵分解路由器的CPT(50%)从53.59%降至35.46%,APGR提高到0.597,表现出19.5%的提升。

在GSM8K测试中,使用增强数据集后的因果LLM路由器,CPT(50%)从56.09%下降到33.64%,APGR从0.461提高到0.622,展现了25.3%的显著改进。矩阵分解路由器的CPT(50%)也从53.59%降至38.82%,APGR提高到0.565,表现出13.8%的提升。

这些结果表明,方法在优化成本与响应质量平衡方面具有显著优势,并展示了在不同数据集和模型组合上的广泛适应性和高效性。

论文要点

1、路由模型的训练

在路由模型的训练过程中,研究人员使用了几种具体的数据增强技术。首先,他们利用了带有黄金标签的数据集,如MMLU验证集。这些数据集包含自动计算的正确答案,例如多项选择题的答案,这些答案被用来生成偏好数据,从而增强训练数据的质量和数量。此外,他们还使用了LLM评审数据集,这些数据集通过一个强大的语言模型(如GPT-4)作为评审者,对一系列用户查询进行响应,并生成强模型和弱模型的对比标签。通过这种方式,他们能大规模生成有代表性的偏好标签,尽管这种方法成本较高,但通过选择具有代表性的查询可以显著降低成本。

为了确保人类偏好数据的代表性,研究人员采取了多项措施。首先,他们使用了来自Chatbot Arena平台的广泛用户查询数据,这些数据涵盖了超过100种语言,确保了数据的多样性和广泛性。此外,他们通过动态编程将模型划分为不同的层级,基于每个模型在Chatbot Arena排行榜上的Elo评分,最大限度地减少每层内的变异性。这种分层和聚类方法帮助他们在强模型和弱模型之间取得代表性和均衡性。

研究人员还对原始数据进行了去重和筛选,减少标签稀疏性,确保每个偏好标签在训练数据中的代表性。通过结合带有黄金标签的数据集和通过GPT-4生成的偏好数据,他们进一步增强了训练数据的代表性和可靠性。这种多重保障措施确保了训练数据的多样性、代表性和准确性,使得训练出来的路由模型能够在保证高质量响应的前提下,显著降低成本,并具有良好的泛化能力。

2、如何在实际应用中确定强弱模型之间的成本效益最佳点

在实际应用中,确定强弱模型之间的成本效益最佳点需要综合考虑多个因素。研究人员通过设置不同的成本阈值来评估强模型和弱模型在各种查询上的性能差异。在训练过程中,路由模型通过学习用户偏好数据,预测强模型获胜的概率,并根据这些预测在给定的成本限制下动态调整路由决策。通过这种方法,可以找到在不显著降低响应质量的前提下,实现成本最低的模型组合。

为了具体确定成本效益最佳点,研究人员使用了多种评估指标,例如CPT(调用强模型的最小比例)和APGR(平均性能提升)。这些指标帮助量化不同模型在各类查询下的表现,并通过实验验证找到最佳的成本效益点。例如,在评估中发现,矩阵分解路由器和相似度加权排序路由器在不同数据集上的表现,展示了在保持高质量响应的同时,显著减少调用强模型的比例。

路由模型在不同应用场景中的适应性表现出色。首先,研究人员在多个公认的基准上对模型进行了评估,包括开放式问答、文科和数学问题。这些基准测试展示了路由模型在处理不同类型任务时的灵活性和高效性。此外,通过引入数据增强技术,如黄金标签数据集和LLM评审数据集,路由模型在训练数据和实际应用数据之间的分布差异得到了有效的弥补,从而提高了模型的泛化能力。

在具体应用场景中,路由模型的适应性还体现在其能够动态调整路由策略,以应对不同复杂度的查询。例如,对于简单查询,模型能够选择较为廉价的弱模型处理,从而节约成本;而对于复杂查询,模型则选择强模型处理,以确保响应质量。通过这种灵活的调整机制,路由模型在实际应用中不仅能够显著降低成本,还能保持高质量的用户体验。综上所述,路由模型在不同应用场景中的适应性和成本效益平衡得到了充分验证,展示了其在实际部署中的巨大潜力。

3、路由模型的迁移学习能力

路由模型的迁移学习能力体现在其在测试时强弱模型发生变化的情况下,仍能保持稳定性能的机制。该机制主要依赖于模型在训练过程中所学习到的通用特性,而不是对特定模型的依赖。具体来说,路由模型通过学习大量用户查询和相应的模型偏好数据,能够识别查询的复杂度和不同模型的相对优势。这种学习过程使模型能够在面对新的强弱模型组合时,依然能够根据查询的特性进行适当的路由决策。

在训练过程中,研究人员通过使用多种数据增强技术,如黄金标签数据集和LLM评审数据集,进一步丰富和多样化了训练数据。这些技术帮助模型捕捉到更多样化的查询和模型响应模式,从而提高了模型的泛化能力和适应性。此外,研究人员在训练过程中对模型进行了多层次的聚类和分层处理,确保了训练数据的广泛代表性。这些方法共同作用,使得路由模型能够在面对新的模型组合时,依然能保持高效的性能和稳定的表现。

关于是否有计划测试更多不同组合的模型以验证迁移学习能力,研究人员确实有这样的计划。当前的实验已经展示了路由模型在一些常见模型组合上的强大适应能力,但为了进一步验证和提高模型的迁移学习能力,研究人员计划在未来的研究中引入更多不同的模型组合进行测试。这些测试将包括不同规模、不同架构和不同训练数据的模型,通过在更广泛的模型组合上验证路由模型的性能,进一步证明其在实际应用中的广泛适用性和鲁棒性。

路由模型的迁移学习能力依赖于其在训练过程中对通用特性的学习和多样化数据的使用,这使得模型在面对新的强弱模型组合时,仍能保持稳定的性能表现。研究人员也计划通过更多不同模型组合的测试,进一步验证和提升模型的迁移学习能力。

总结

这篇论文提出了一种新的路由框架,通过动态选择强弱大型语言模型(LLMs)来优化成本与响应质量的平衡。研究表明,大型语言模型在各种自然语言任务中表现出色,但更强大的模型成本高昂,而较弱的模型则更具成本效益。本文提出的路由模型利用人类偏好数据和数据增强技术,能够智能地在推理时选择适当的模型处理查询,从而显著降低成本,同时保持高质量的响应。

路由模型的迁移学习能力也得到了验证,即使在测试时强弱模型发生变化,模型仍能保持稳定的性能表现。这主要归功于模型在训练过程中学习到的通用特性和丰富多样的训练数据。研究人员计划在未来引入更多不同的模型组合进行测试,以进一步验证和提高模型的迁移学习能力。

总的来说,这篇论文展示了一种高效、灵活且具有广泛适应性的LLM路由框架,通过智能选择模型,达到了成本和性能的最佳平衡,为实际部署LLMs提供了一种高性价比的解决方案。

https://avoid.overfit.cn/post/58a7809e80ad42bbb1425b8eff261837

目录
相关文章
|
19天前
|
机器学习/深度学习 PyTorch 测试技术
TurboAttention:基于多项式近似和渐进式量化的高效注意力机制优化方案,降低LLM计算成本70%
**TurboAttention**提出了一种全新的LLM信息处理方法。该方法通过一系列优化手段替代了传统的二次复杂度注意力机制,包括稀疏多项式软最大值近似和高效量化技术。
56 5
TurboAttention:基于多项式近似和渐进式量化的高效注意力机制优化方案,降低LLM计算成本70%
|
21天前
|
机器学习/深度学习 人工智能 算法
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
谷歌提出了一种名为Evolving Alignment via Asymmetric Self-Play(eva)的新RLHF框架,通过创造者和解决者交替优化,生成具有挑战性的提示,提高模型泛化能力、样本效率和对齐鲁棒性。实验结果显示,eva在多个基准上显著提升性能,展示了其创新性和有效性。然而,eva的实现较为复杂,且实际应用中的长期效果仍待验证。
40 5
|
5天前
|
人工智能 知识图谱 Docker
KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答
KAG 是蚂蚁集团推出的专业领域知识服务框架,通过知识增强提升大型语言模型在特定领域的问答性能,支持逻辑推理和多跳事实问答,显著提升推理和问答的准确性和效率。
151 46
KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答
|
1月前
|
开发框架 人工智能 安全
Promptic:轻量级 LLM 应用开发框架,提供完善的底层功能,使开发者更专注于构建上层功能
Promptic 是一个轻量级的 LLM 应用开发框架,支持通过一行代码切换不同的 LLM 服务提供商。它提供了类型安全的输出、流式支持、内置对话记忆、错误处理和重试等功能,帮助开发者专注于构建功能,而不是底层的复杂性。
73 6
Promptic:轻量级 LLM 应用开发框架,提供完善的底层功能,使开发者更专注于构建上层功能
|
1月前
|
缓存 算法 关系型数据库
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
麻省理工学院韩松团队提出DuoAttention框架,旨在提高大型语言模型(LLM)处理长上下文的效率。该框架通过区分检索头和流式头,仅对检索头应用全键值缓存,减少内存消耗和计算时间,同时保持模型长上下文处理能力。实验结果显示,DuoAttention在多种模型架构上显著提升了推理效率,为LLM的实际应用提供了新可能。
72 14
|
1月前
|
人工智能 算法
图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield
北京大学研究团队提出了一种名为FakeShield的多模态框架,旨在解决图像伪造检测与定位(IFDL)中的黑箱问题及泛化能力不足。FakeShield不仅能评估图像真实性,生成篡改区域的掩码,还能提供像素级和图像级的篡改线索及详细文本描述,增强检测的可解释性。通过使用GPT-4o增强现有数据集,创建多模态篡改描述数据集(MMTD-Set),并引入领域标签引导的可解释伪造检测模块(DTE-FDM)和多模态伪造定位模块(MFLM),FakeShield在多种篡改技术的检测与定位上表现优异,为图像真实性维护提供了有力工具。
73 14
|
1月前
|
自然语言处理 资源调度 并行计算
从本地部署到企业级服务:十种主流LLM推理框架的技术介绍与对比
本文深入探讨了十种主流的大语言模型(LLM)服务引擎和工具,涵盖从轻量级本地部署到高性能企业级解决方案,详细分析了它们的技术特点、优势及局限性,旨在为研究人员和工程团队提供适合不同应用场景的技术方案。内容涉及WebLLM、LM Studio、Ollama、vLLM、LightLLM、OpenLLM、HuggingFace TGI、GPT4ALL、llama.cpp及Triton Inference Server与TensorRT-LLM等。
176 7
|
2月前
|
JSON 数据可视化 NoSQL
基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践
本文介绍了LangChain的LLM Graph Transformer框架,探讨了文本到图谱转换的双模式实现机制。基于工具的模式利用结构化输出和函数调用,简化了提示工程并支持属性提取;基于提示的模式则为不支持工具调用的模型提供了备选方案。通过精确定义图谱模式(包括节点类型、关系类型及其约束),显著提升了提取结果的一致性和可靠性。LLM Graph Transformer为非结构化数据的结构化表示提供了可靠的技术方案,支持RAG应用和复杂查询处理。
173 2
基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践
|
2月前
|
敏捷开发 机器学习/深度学习 数据采集
端到端优化所有能力,字节跳动提出强化学习LLM Agent框架AGILE
【10月更文挑战第23天】字节跳动研究团队提出AGILE框架,通过强化学习优化大型语言模型(LLM)在复杂对话任务中的表现。该框架将LLM作为核心决策模块,结合记忆、工具和专家咨询模块,实现智能体的自我进化。实验结果显示,AGILE智能体在ProductQA和MedMCQA数据集上优于GPT-4。
165 4
|
3月前
|
计算机视觉
Deepseek开源多模态LLM模型框架Janus,魔搭社区最佳实践
deepseek近期推出了简单、统一且灵活的多模态框架Janus,它能够统一处理多模态理解和生成任务。让我们一起来了解一下吧。