开发者社区> 问答> 正文

在生产环境中,为什么多轮对话复用KV cache的策略难以直接实现?

在生产环境中,为什么多轮对话复用KV cache的策略难以直接实现?

展开
收起
花开富贵111 2024-05-23 17:32:53 28 0
1 条回答
写回答
取消 提交回答
  • 在生产环境中,模型通常部署在由多台机器组成的机器集群中,用户层的请求通过统一域名服务转发到机器集群中的某一台机器。这样的架构设计导致不同轮次的对话命中同一台机器的概率微乎其微,因为每次请求可能被转发到不同的机器上,而这些机器上的显存中存放的KV cache是独立的。

    2024-05-23 17:48:16
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载