TurboAttention:基于多项式近似和渐进式量化的高效注意力机制优化方案,降低LLM计算成本70%

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: **TurboAttention**提出了一种全新的LLM信息处理方法。该方法通过一系列优化手段替代了传统的二次复杂度注意力机制,包括稀疏多项式软最大值近似和高效量化技术。

随着大型语言模型(LLMs)在AI应用领域持续发展,其计算成本也呈现显著上升趋势。数据分析表明,GPT-4的运行成本约为700美元/小时,2023年各企业在LLM推理方面的总支出超过50亿美元。这一挑战的核心在于注意力机制——该机制作为模型处理和关联信息的计算核心,同时也构成了主要的性能瓶颈。

TurboAttention提出了一种全新的LLM信息处理方法。该方法通过一系列优化手段替代了传统的二次复杂度注意力机制,包括稀疏多项式软最大值近似和高效量化技术。初步实现结果显示,该方法可实现70%的计算成本降低,同时保持98%的模型精度

对于规模部署LLM的组织而言,这不仅是性能的提升,更是一项可显著降低运营成本并优化响应时间的技术突破。

本文将从技术层面深入探讨TurboAttention如何实现效率提升,分析其架构创新。

1、注意力机制原理

在深入分析TurboAttention之前,首先需要理解注意力机制的基本原理,特别是其高效性与计算密集性的双重特性。

注意力机制定义

在深度学习领域,注意力机制是一种使模型能够动态关注输入数据不同部分的技术方法。区别于对所有词元或元素赋予相同的权重,注意力机制允许网络重点关注特定词元。这一特性在序列处理任务中尤其重要,如语言建模中句子前部分的词对后续词的影响。

注意力机制类型

自注意力:计算同一序列内部的注意力得分。例如,在句子处理中,模型计算每个词与同一句子中其他词的关联度,以获取上下文关系。

交叉注意力:计算不同序列间的注意力得分,典型应用如神经机器翻译系统中源语言与目标语言序列间的关联计算。

计算复杂度分析

传统注意力机制需要处理尺寸为的矩阵计算,其中表示序列长度。因此计算复杂度为。对于LLM中常见的数千词元长序列,这种复杂度rapidly构成性能瓶颈。

高效注意力机制的必要性

随着模型规模从百万扩展到十亿甚至万亿参数,注意力机制的计算瓶颈日益凸显,这严重制约了实时处理能力并导致计算成本攀升。TurboAttention通过整合多项优化策略解决这一问题,包括稀疏化处理、多项式软最大值近似和分级量化方案。

2、TurboAttention技术架构

TurboAttention提供了一种在大规模Transformer模型中实现注意力机制近似的技术方案,在计算效率和模型性能之间达到平衡。其核心创新点包括两个方面:注意力权重的计算优化(采用多项式近似和稀疏阈值处理)以及相关数据(查询、键和值矩阵)的存储优化(采用渐进式量化方案)。

核心技术组件

1.稀疏注意力计算:通过识别并仅保留关键词元对的方式,大幅降低注意力计算量。

2.低秩矩阵分解:在可行情况下将高维注意力矩阵分解为低维表示,以减少矩阵乘法运算。

3.核函数优化:采用核函数方法,提供比传统矩阵乘法更高效的注意力分布估计。

4.多项式软最大值近似(SAS):使用多项式函数近似软最大值中的指数运算,降低计算开销。

5.渐进式量化(PQ):实现多级量化策略(从INT8到INT4,某些情况下可降至INT2),优化带宽和内存使用。

数学基础

传统注意力运算的数学表达式为:

其中(查询矩阵)、(键矩阵)和(值矩阵)由输入数据生成,表示键向量维度。虽然保证了注意力权重和为1,但指数运算带来了显著的计算开销。TurboAttention通过引入稀疏计算(仅计算必要的注意力分数)和高效指数近似来优化这一过程。

以高精度(FP16/FP32)存储和传输和矩阵会占用大量内存。渐进式量化通过将这些矩阵转换为低位整数表示来解决此问题,有效降低内存和计算开销。

SAS:稀疏激活软最大值技术

Transformer模型中注意力机制的一个关键性能瓶颈是软最大值函数。传统软最大值计算需要执行指数运算和除法运算,这在处理大规模矩阵时会产生显著的浮点运算开销。

多项式近似软最大值

SAS(稀疏激活软最大值)技术证明了在实际应用范围内可以使用低次多项式进行有效近似。具体定义如下:

该公式将计算分为整数部分和小数部分(和),对其中一部分使用查找表(LUT),另一部分使用多项式()计算。

典型的三次多项式拟合(通过最小二乘法求解)形式如下:

通过将多项式次数限制在2或3并将取值范围控制在内,SAS方法相比浮点指数运算实现了显著的性能提升。

在GPU张量核心等硬件上,这些多项式运算可以通过FP16友好的方式执行,进一步提高计算吞吐量。

软最大值后稀疏化处理

较大的"主导"注意力分数往往会掩盖较小的分数。在应用多项式指数近似后,SAS可将低于阈值的分数置零,实现仅关注最相关词元交互的目标。这种方法生成稀疏结果,从而降低内存和计算开销。

渐进式量化技术(PQ)

SAS技术解决了软最大值的计算效率问题,而量化技术则针对大规模模型的内存带宽约束提供解决方案。传统整数量化方法已在权重和激活值处理中证明其有效性,但在应用注意力机制时,大多数方法仍需要对查询(Q)、键(K)和值(V)矩阵进行部分反量化操作。

渐进式量化(PQ)技术源自近期研究工作(如Lin等人2024年提出的Qserve),采用两级处理方案:

第一级:对称INT8量化

将原始FP16或FP32数值映射至零点为的INT8区间,以避免矩阵乘法中的额外计算开销。该阶段同时保存比例因子(浮点值)和量化后的整数数据。

第二级:非对称INT4量化

将INT8表示进一步压缩至INT4精度,需要引入零点。虽然非对称量化在乘法运算中引入了额外项,但由于大部分数据以压缩格式处理,仅在必要时进行部分展开,因此总体开销得到有效控制。

渐进式量化的数学表达式为:

其中和在INT8和INT4阶段可采用不同值。最终的整数推理计算公式(基于snippet中的等式7和8推导)为:

其中和表示部分解压但仍保持低位表示的数据。这一系列操作确保了浮点运算开销最小化,同时实现显著的内存节省。

注意力头优先级差异化处理

量化过程中的一个重要发现是,不同注意力头对精度损失的敏感度存在显著差异。来自Phi3-mini和LLaMA3-8B模型的实验观察表明,查询和键矩阵中某些注意力头的通道具有较大幅值,过度压缩这些头会导致模型性能下降。

为解决这一问题,TurboAttention引入了注意力头优先级计算机制:

其中表示头中通道的最大值与最小值之差,为这些差值的标准差。优先级较高的头对低位量化更为敏感,因此保持INT4精度,而低优先级头可进一步压缩至INT2。具体实现为:

通过这种方式,少量头(由参数定义)接受更激进的压缩,但模型整体性能得以保持。这种精细化的量化策略相比统一量化方案获得了更好的压缩效果。

3、TurboAttention实现架构

TurboAttention的实现涉及多个核心模块:基于多项式的软最大值近似模块和Q、K、V矩阵的渐进式量化处理模块。下面提供基于PyTorch的实现示例。

TurboAttention的实现涉及多个核心模块:基于多项式的软最大值近似模块和Q、K、V矩阵的渐进式量化处理模块。下面提供基于PyTorch的实现示例。

说明: 示例代码集成了稀疏注意力、多项式指数近似和部分量化等核心思想。为保持代码可读性,某些实现细节(如多项式近似的具体实现)进行了适当简化。

 importtorch  
 importtorch.nnasnn  
 importtorch.nn.functionalasF  
 importmath  

 classTurboAttention(nn.Module):  
     def__init__(self, embed_dim, num_heads, sparse_ratio=0.1):  
         super(TurboAttention, self).__init__()  
         self.embed_dim=embed_dim  
         self.num_heads=num_heads  
         self.sparse_ratio=sparse_ratio  
         self.head_dim=embed_dim//num_heads  

         assert (  
             self.head_dim*num_heads==embed_dim  
         ), "嵌入维度必须能被注意力头数整除"  

         # 定义线性投影层  
         self.q_proj=nn.Linear(embed_dim, embed_dim)  
         self.k_proj=nn.Linear(embed_dim, embed_dim)  
         self.v_proj=nn.Linear(embed_dim, embed_dim)  

         # 定义输出投影层  
         self.out_proj=nn.Linear(embed_dim, embed_dim)  

         # 定义e^-x近似的多项式系数 (SAS)  
         # P(x) = a3*x^3 + a2*x^2 + a1*x + a0  
         self.poly_a3=-0.1025  
         self.poly_a2=0.4626  
         self.poly_a1=-0.9922  
         self.poly_a0=0.9996  

     defforward(self, x):  
         batch_size, seq_length, embed_dim=x.size()  

         # 第1步:执行线性投影并可选进行量化  
         Q_fp=self.q_proj(x)  
         K_fp=self.k_proj(x)  
         V_fp=self.v_proj(x)  

         # 注:此处省略渐进式量化实现代码  
         # 实际应用中需要将Q、K、V量化为低位格式  
         # 并在需要时进行部分反量化以支持矩阵乘法  

         # 重排张量以支持多头注意力计算  
         Q=Q_fp.view(batch_size, seq_length, self.num_heads, self.head_dim).transpose(1, 2)  
         K=K_fp.view(batch_size, seq_length, self.num_heads, self.head_dim).transpose(1, 2)  
         V=V_fp.view(batch_size, seq_length, self.num_heads, self.head_dim).transpose(1, 2)  

         # 第2步:计算缩放点积注意力  
         # 使用多项式近似替代标准指数函数  
         scores=torch.matmul(Q, K.transpose(-2, -1)) /math.sqrt(self.head_dim)  

         # 将注意力分数限制在[0, 1]范围内以适应多项式计算  
         scores_clamped=torch.clamp(scores, 0, 1)  

         # 使用多项式近似计算e^-x  
         # softmax中根据分数符号使用e^score或e^-score  
         # 此处展示e^-x的近似计算  
         exponent_approx= (  
             self.poly_a3*scores_clamped**3+  
             self.poly_a2*scores_clamped**2+  
             self.poly_a1*scores_clamped+  
             self.poly_a0  
         )  

         # 第3步:实现top-k稀疏化  
         top_k=max(1, int(seq_length*self.sparse_ratio))  
         top_scores, _=torch.topk(scores, top_k, dim=-1)  
         threshold=top_scores[:, :, :, -1].unsqueeze(-1)  
         mask= (scores>=threshold)  

         # 将多项式近似结果转换为带掩码的注意力分布  
         exponent_approx=exponent_approx.masked_fill(~mask, float('-inf'))  

         # 第4步:执行softmax归一化  
         attn=F.softmax(exponent_approx, dim=-1)  

         # 第5步:应用dropout进行正则化  
         attn=F.dropout(attn, p=0.1, training=self.training)  

         # 第6步:计算注意力加权和  
         context=torch.matmul(attn, V)  

         # 恢复原始张量形状  
         context=context.transpose(1, 2).contiguous().view(batch_size, seq_length, embed_dim)  
         out=self.out_proj(context)  

         returnout

TurboAttention可通过替换标准多头注意力模块(如nn.MultiheadAttention)的方式集成到PyTorch Transformer架构中:

 classTransformerBlock(nn.Module):  
     def__init__(self, embed_dim, num_heads):  
         super(TransformerBlock, self).__init__()  
         self.attention=TurboAttention(embed_dim, num_heads)  
         self.layer_norm1=nn.LayerNorm(embed_dim)  
         self.feed_forward=nn.Sequential(  
             nn.Linear(embed_dim, embed_dim*4),  
             nn.ReLU(),  
             nn.Linear(embed_dim*4, embed_dim)  
         )  
         self.layer_norm2=nn.LayerNorm(embed_dim)  

     defforward(self, x):  
         # 注意力层计算  
         attn_out=self.attention(x)  
         x=self.layer_norm1(x+attn_out)  

         # 前馈网络计算  
         ff_out=self.feed_forward(x)  
         x=self.layer_norm2(x+ff_out)  

         returnx

生产环境部署方案

在工程实践中,除算法实现外,TurboAttention的生产部署还需要完善的DevOps支持。主要技术环节包括容器化管理、服务编排和分布式推理工作流设计。

容器化实现

采用Docker实现环境一致性管理: # 基础镜像选择 FROM pytorch/pytorch:1.12.1-cuda11.3-cudnn8-runtime

 # 环境变量配置  
 ENVPYTHONDONTWRITEBYTECODE=1  
 ENVPYTHONUNBUFFERED=1  

 # 工作目录设置  
 WORKDIR/app  

 # 依赖项安装  
 COPYrequirements.txt .  
 RUNpipinstall--upgradepip  
 RUNpipinstall-rrequirements.txt  

 # 项目文件复制  
 COPY . .  

 # 服务启动命令  
 CMD ["python", "deploy_model.py"]

依赖配置文件requirements.txt内容示例:

     torch==1.12.1  
     torchvision==0.13.1  
     flask==2.0.3  
     gunicorn==20.1.0

服务编排配置

使用Kubernetes实现自动化部署和弹性伸缩:

     apiVersion: apps/v1  
     kind: Deployment  
     metadata:  
       name: turboattention-deployment  
     spec:  
       replicas: 3  
       selector:  
         matchLabels:  
           app: turboattention  
       template:  
         metadata:  
           labels:  
             app: turboattention  
         spec:  
           containers:  
           -name: turboattention-container  
             image: your-docker-repo/turboattention:latest  
             ports:  
             -containerPort: 8000  
             resources:  
               limits:  
                 memory: "2Gi"  
                 cpu: "1"  
               requests:  
                 memory: "1Gi"  
                 cpu: "0.5"  
     ---  
     apiVersion: v1  
     kind: Service  
     metadata:  
       name: turboattention-service  
     spec:  
       selector:  
         app: turboattention  
       ports:  
         -protocol: TCP  
           port: 80  
           targetPort: 8000  
       type: LoadBalancer

工作流自动化

基于Airflow实现模型更新和部署自动化:

 fromairflowimportDAG  
 fromairflow.operators.bashimportBashOperator  
 fromdatetimeimportdatetime  

 default_args= {  
     'owner': 'airflow',  
     'start_date': datetime(2023, 1, 1),  
 }  

 withDAG('deploy_turboattention', default_args=default_args, schedule_interval='@daily') asdag:  
     build_docker=BashOperator(  
         task_id='build_docker_image',  
         bash_command='docker build -t your-docker-repo/turboattention:latest .'  
     )  
     push_docker=BashOperator(  
         task_id='push_docker_image',  
         bash_command='docker push your-docker-repo/turboattention:latest'  
     )  
     update_kubernetes=BashOperator(  
         task_id='update_kubernetes_deployment',  
         bash_command='kubectl apply -f k8s-deployment.yaml'  
     )  

     # 定义任务执行顺序  
     build_docker>>push_docker>>update_kubernetes# **性能评估方法**

TurboAttention的性能评估需要从多个维度与基准注意力机制进行对比,包括计算速度、精度、内存使用效率和运行稳定性等指标。

4、基准测试实现

以下代码展示了一种基于合成数据的性能测试方法:

 importtime  
 importtorch  
 defbenchmark_attention(attention_layer, x):  
     start_time=time.time()  
     for_inrange(100):  
         output=attention_layer(x)  
     end_time=time.time()  
     avg_time= (end_time-start_time) /100  
     returnavg_time  

 # 构造测试数据  
 batch_size=32  
 seq_length=512  
 embed_dim=1024  
 x=torch.randn(batch_size, seq_length, embed_dim).cuda()  

 # 标准注意力机制测试  
 standard_attention=nn.MultiheadAttention(embed_dim, num_heads=8).cuda()  
 standard_time=benchmark_attention(standard_attention, x)  
 print(f"标准注意力机制平均执行时间:{standard_time:.6f}秒")  

 # TurboAttention测试  
 turbo_attention=TurboAttention(embed_dim, num_heads=8, sparse_ratio=0.1).cuda()  
 turbo_time=benchmark_attention(turbo_attention, x)  
 print(f"TurboAttention平均执行时间:{turbo_time:.6f}秒")

实验结果显示,TurboAttention可实现1.5到3倍的推理速度提升,具体提升幅度取决于多个关键参数的配置,如sparse_ratio(稀疏率)、软最大值近似的多项式次数以及渐进式量化的位深度设置。重要的是,这种显著的性能提升仅带来很小的精度损失(根据具体应用场景,绝对精度下降通常控制在1-2%以内)。

4、基准测试实现

以下代码展示了一种基于合成数据的性能测试方法: import time import torch

 def benchmark_attention(attention_layer, x):  
     start_time = time.time()  
     for _ in range(100):  
         output = attention_layer(x)  
     end_time = time.time()  
     avg_time = (end_time - start_time) / 100  
     return avg_time  

 # 构造测试数据  
 batch_size = 32  
 seq_length = 512  
 embed_dim = 1024  
 x = torch.randn(batch_size, seq_length, embed_dim).cuda()  

 # 标准注意力机制测试  
 standard_attention = nn.MultiheadAttention(embed_dim, num_heads=8).cuda()  
 standard_time = benchmark_attention(standard_attention, x)  
 print(f"标准注意力机制平均执行时间:{standard_time:.6f}秒")  

 # TurboAttention测试  
 turbo_attention = TurboAttention(embed_dim, num_heads=8, sparse_ratio=0.1).cuda()  
 turbo_time = benchmark_attention(turbo_attention, x)  
 print(f"TurboAttention平均执行时间:{turbo_time:.6f}秒")

实验结果显示,TurboAttention可实现1.5到3倍的推理速度提升,具体提升幅度取决于多个关键参数的配置,如sparse_ratio(稀疏率)、软最大值近似的多项式次数以及渐进式量化的位深度设置。重要的是,这种显著的性能提升仅带来很小的精度损失(根据具体应用场景,绝对精度下降通常控制在1-2%以内)。

5、技术发展方向

TurboAttention为大规模模型优化开辟了新的研究方向:

自适应稀疏化机制

开发基于上下文的动态稀疏率调整机制。对于复杂度较高的输入区域降低稀疏度,而对简单区域采用更激进的剪枝策略。

高阶近似方法

研究分段多项式或混合查表方案,在保持计算效率的同时提高指数函数近似精度。

跨模态注意力优化

随着多模态模型的普及,针对不同模态特征的多项式近似方法需要进一步优化。

硬件协同设计

下一代GPU或AI专用加速器可考虑在硬件层面直接支持多项式近似计算和多级量化操作。

设备端学习优化

利用渐进式量化带来的内存效率提升,探索在资源受限设备上实现模型微调和个性化适配。

总结

TurboAttention在大型语言和视觉模型的注意力机制优化方面实现了重要突破,其核心创新包括:

稀疏激活软最大值(SAS):通过多项式近似和重要性筛选,显著降低了指数运算开销。

渐进式量化(PQ):采用两阶段量化策略(INT8至INT4/INT2),实现了有效的精度-性能平衡。

差异化量化策略:基于敏感度分析的选择性压缩方案,确保关键注意力头的性能不受影响。

TurboAttention通过这些技术创新显著降低了计算和内存开销,同时保持了注意力机制捕获上下文依赖关系的核心能力。

在工程实践中,通过现代DevOps工具链(Docker、Kubernetes、Airflow等)的支持,TurboAttention可实现平稳的生产环境部署。随着机器学习技术的持续发展,这类高效注意力机制将在降低大规模模型部署成本方面发挥重要作用。采用这些优化技术的组织可在保持模型性能的同时,显著降低硬件投入和能源消耗。

论文:

https://avoid.overfit.cn/post/fb11eb14d9044eb7a212179965eb3938

作者:Tim Urista

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
2月前
|
数据采集 人工智能 自然语言处理
文档智能与检索增强生成结合的LLM知识库方案测评:优势与改进空间
《文档智能 & RAG让AI大模型更懂业务》解决方案通过结合文档智能和检索增强生成(RAG)技术,构建企业级文档知识库。方案详细介绍了文档清洗、向量化、问答召回等步骤,但在向量化算法选择、多模态支持和用户界面上有待改进。部署过程中遇到一些技术问题,建议优化性能和增加实时处理能力。总体而言,方案在金融、法律、医疗等领域具有广泛应用前景。
76 11
|
2月前
|
数据采集 人工智能 自然语言处理
万字干货|复杂表格多Agent方案:从LLM洞察、系统性 思考到实践经验总结
笔者结合实践经验以近期在负责的复杂表格智能问答为切入点,结合大模型的哲学三问(“是谁、从哪里来、到哪里去”),穿插阐述自己对大模型的一些理解与判断,以及面向公共云LLM的建设模式思考,并分享软件设计+模型算法结合的一些研发实践经验。
|
2月前
|
敏捷开发 机器学习/深度学习 数据采集
端到端优化所有能力,字节跳动提出强化学习LLM Agent框架AGILE
【10月更文挑战第23天】字节跳动研究团队提出AGILE框架,通过强化学习优化大型语言模型(LLM)在复杂对话任务中的表现。该框架将LLM作为核心决策模块,结合记忆、工具和专家咨询模块,实现智能体的自我进化。实验结果显示,AGILE智能体在ProductQA和MedMCQA数据集上优于GPT-4。
164 4
|
4月前
|
Cloud Native 关系型数据库 Serverless
基于阿里云函数计算(FC)x 云原生 API 网关构建生产级别 LLM Chat 应用方案最佳实践
本文带大家了解一下如何使用阿里云Serverless计算产品函数计算构建生产级别的LLM Chat应用。该最佳实践会指导大家基于开源WebChat组件LobeChat和阿里云函数计算(FC)构建企业生产级别LLM Chat应用。实现同一个WebChat中既可以支持自定义的Agent,也支持基于Ollama部署的开源模型场景。
816 29
|
5月前
|
存储 人工智能 自然语言处理
无缝融入,即刻智能[二]:Dify-LLM平台(聊天智能助手、AI工作流)快速使用指南,42K+星标见证专属智能方案
【8月更文挑战第8天】无缝融入,即刻智能[二]:Dify-LLM平台(聊天智能助手、AI工作流)快速使用指南,42K+星标见证专属智能方案
无缝融入,即刻智能[二]:Dify-LLM平台(聊天智能助手、AI工作流)快速使用指南,42K+星标见证专属智能方案
|
5月前
|
Linux API 开发工具
LLM大模型部署实战指南:Ollama简化流程,OpenLLM灵活部署,LocalAI本地优化,Dify赋能应用开发
【8月更文挑战第5天】LLM大模型部署实战指南:Ollama简化流程,OpenLLM灵活部署,LocalAI本地优化,Dify赋能应用开发
LLM大模型部署实战指南:Ollama简化流程,OpenLLM灵活部署,LocalAI本地优化,Dify赋能应用开发
|
5月前
|
前端开发 Linux API
无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智能方案
【8月更文挑战第3天】无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智能方案
无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智能方案
|
5月前
|
机器学习/深度学习 边缘计算 缓存
|
6月前
|
自然语言处理 搜索推荐 算法
人工智能LLM问题之推荐系统通过优化提升业务指标如何解决
人工智能LLM问题之推荐系统通过优化提升业务指标如何解决
人工智能LLM问题之推荐系统通过优化提升业务指标如何解决
|
6月前
|
机器学习/深度学习 自然语言处理 数据挖掘
RouteLLM:高效LLM路由框架,可以动态选择优化成本与响应质量的平衡
新框架提出智能路由选择在强弱语言模型间,利用用户偏好的学习来预测强模型胜率,基于成本阈值做决策。在大规模LLMs部署中,该方法显著降低成本而不牺牲响应质量。研究显示,经过矩阵分解和BERT等技术训练的路由器在多个基准上提升性能,降低强模型调用,提高APGR。通过数据增强,如MMLU和GPT-4评审数据,路由器在GSM8K、MMLU等测试中展现出色的性能提升和成本效率。未来将测试更多模型组合以验证迁移学习能力。该框架为LLMs部署提供了成本-性能优化的解决方案。
207 2