斯坦福2023【FrugalGPT】减少大模型的商业化应用成本

简介: 斯坦福2023【FrugalGPT】减少大模型的商业化应用成本

主要解决问题

这篇文章主要是要解决如何降低调用大语言模型的成本(ChatGPT)。大模型API调用成本主要是三方面的:1. prompt cost(输入的prompt);2. generation cost(输出的部分);3. 每次调用的固定开销(网费等)。不用的模型之前的差异化收费也不一样,比如ChatGPT 10M的token需要30美金,但是如果是调用GPT-J的话,只需要0.2美金。

如何基于query的难易程度,来调用差异化的模型?如何将相似的问题存起来,减少模型的调用?等等一些手段都可以用来减少GPT的调用,减少成本。作者提出了三种策略来减少开销:

  1. prompt adaptation;
  2. LLM approximation;
  3. LLM cascade;

结论就是能够减少98%的花销,或者是相同花销下,提升4%的性能。

采用什么方法

Prompt adaptation

LLM的调用开销与query的大小呈线性递增,因此减小prompt的长度就是一个可以去减少开销的点。

  • prompt selections:选择合适的,需要的QA示例:

  • query concatenation:多个query一起发送给chatgpt:

LLM approximation

如果大语言模型的调用很贵,那么一个简单的想法就是去近似这个大语言模型。不管是completion cache,还是fine-tuning都是可以的。

LLM cascade

不同的LLM APIs都具有他们各自的强项和弱项。

LLM cascade中两个比较关键的地方是:1. scoring function;2. LLM router。

在论文中,作者是采用DistiBERT去作为这个 scoring function。LLM router就是作者非常建议的设定这些阈值和顺序。当然这个也可以用大模型中的Reward Model去评分。

LLM的多样性同时会使得最终的性能有所提升,贵的LLM APIs也不一定见地好。

实验结论

作者在一些特定的数据集上面做了实验,以下是一些Cost和Acc的曲线图。可以看到很少的钱就能够达到较为不错的效果。

讨论与展望

这里很重要的一点,时间开销作者这里并没有讨论。尤其是LLM cascade这块,如果前两次调用失败,那时间开销就比较长了。当然还有一些问题是LLM商业化应用的共性问题,安全,隐私,伦理,不确定性等等。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 边缘计算
大模型在医疗领域的应用
🌟蒋星熠Jaxonic,AI开发者,深耕医疗大模型领域。见证代码如何重塑医疗:从影像分析到智能诊断,从药物研发到临床决策。分享技术实践与行业洞察,探索AI赋能健康的时代变革。
大模型在医疗领域的应用
|
1月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
2月前
|
人工智能 自然语言处理 搜索推荐
携多项成果亮相云栖大会,探索大模型在云通信中的创新应用与全球实践
2025云栖大会云通信分论坛聚焦大模型与云通信融合,阿里云发布智能联络中心2.0与Chat App AI助理,携手伙伴推动通信智能化升级。
291 1
|
4月前
|
人工智能 自然语言处理 开发工具
统一多模态 Transformer 架构在跨模态表示学习中的应用与优化
本文介绍统一多模态 Transformer(UMT)在跨模态表示学习中的应用与优化,涵盖模型架构、实现细节与实验效果,探讨其在图文检索、图像生成等任务中的卓越性能。
统一多模态 Transformer 架构在跨模态表示学习中的应用与优化
|
4月前
|
人工智能 自然语言处理 搜索推荐
企业客户服务效率低、体验差,如何通过大模型技术改善?一文了解面向客户服务全场景的行业大模型的3大应用方向
本文三桥君探讨了大模型技术在客户服务领域的应用与实践。从架构设计出发,详细解析了面向客户、客服和运营三大场景的智能功能模块,包括业务咨询、情感关怀、智能点选、知识采编等12项核心功能。AI产品专家三桥君指出,通过行业大模型定制、多源数据整合等技术手段,企业可实现客户服务的智能化升级,显著提升客户体验和运营效率。
303 0
|
2月前
|
人工智能 Java API
Java与大模型集成实战:构建智能Java应用的新范式
随着大型语言模型(LLM)的API化,将其强大的自然语言处理能力集成到现有Java应用中已成为提升应用智能水平的关键路径。本文旨在为Java开发者提供一份实用的集成指南。我们将深入探讨如何使用Spring Boot 3框架,通过HTTP客户端与OpenAI GPT(或兼容API)进行高效、安全的交互。内容涵盖项目依赖配置、异步非阻塞的API调用、请求与响应的结构化处理、异常管理以及一些面向生产环境的最佳实践,并附带完整的代码示例,助您快速将AI能力融入Java生态。
452 12
|
2月前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。
|
2月前
|
人工智能 算法 数据挖掘
AI Agent工作流实用手册:5种常见模式的实现与应用,助力生产环境稳定性
本文介绍了五种AI Agent结构化工作流模式,帮助解决传统提示词方式在生产环境中输出不稳定、质量不可控的问题。通过串行链式处理、智能路由、并行处理、编排器-工作器架构和评估器-优化器循环,可提升任务执行效率、资源利用和输出质量,适用于复杂、高要求的AI应用。
585 0
AI Agent工作流实用手册:5种常见模式的实现与应用,助力生产环境稳定性
|
2月前
|
存储 缓存 负载均衡
LLM推理成本直降60%:PD分离在大模型商业化中的关键价值
在LLM推理中,Prefill(计算密集)与Decode(访存密集)阶段特性不同,分离计算可提升资源利用率。本文详解vLLM框架中的PD分离实现及局限,并分析Dynamo、Mooncake、SGLang等主流方案,探讨KV缓存、传输机制与调度策略,助力LLM推理优化。建议点赞收藏,便于后续查阅。
1416 1

热门文章

最新文章

下一篇
oss云网关配置