备案控制台登录注册

开发者社区云计算文章正文

KVCache原理简述

2024-01-25 286 发布于海南

版权

举报

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： KVCache原理简述

在GPT的推理过程中，它根据完整的提问和回答的已生成部分，来生测下一个词（的概率）。

例如，我们的提问是【天王盖地虎，】，回答是【宝塔镇河妖。】。

那么第一次，GPT根据【天王盖地虎，】生成【宝】，之后根据【天王盖地虎，宝】生成【塔】，以此类推，直到碰上终止符。

这里面提问【天王盖地虎，】的QKV实际上重复计算了很多遍。由于GPT是单向注意力，每层的提问的KV只根据上一层的提问的KV（或提问的嵌入向量）计算，不跟据回答中任何字符的KV计算，完全可以把它们缓存起来避免重复计算。

如下图所示：

改进之后，我们GPT根据【天王盖地虎，】生成【宝】，同时还有KV(天王盖地虎，)，然后根据KV(天王盖地虎，)和【宝】生成【塔】以及KV(天王盖地虎，宝)，以此类推。

至于为什么不缓存Q，因为推理场景下我们只取最后一个词，那么每层输出HS[-1]就可以了。HS[-1]根据全部的V和注意力矩阵的最后一行A[-1]计算，而A[-1]根据Q[-1]和全部的K计算，Q[-1]只根据输入最后一个字符X[-1]计算。

所以我们通过传入KVCache保证K和V是完整的，输入字符只传入最后一个，也就是上一次GPT生成出来的字符，就可以了。

文章标签：

缓存

布客飞龙

+关注

目录

打赏

0

0

0

0

260

相关文章

远方并不远。

|

存储 Kubernetes 负载均衡

k8s是什么以及它的原理和如何去使用它？

k8s是什么以及它的原理和如何去使用它？

远方并不远。

270 0 0

南城余

|

11月前

|

人工智能运维 Java

SpringIoC原理

SpringIoC原理

南城余

47 2 2

阿兵云原生

|

存储 Kubernetes API

k8s 自身原理 1

k8s 自身原理 1

阿兵云原生

124 1 1

阿兵云原生

|

Kubernetes Cloud Native 调度

k8s 自身原理 2

k8s 自身原理 2

阿兵云原生

115 1 1

_揽

简述for in 和 for of 的区别

1、推荐在循环对象属性的时候使用 for...in，在遍历数组的时候的时候使用 for...of 2、for...in 循环出的是 key，for...of 循环出的是 value

_揽

166 0 0

简述for in 和 for of 的区别

zzqwtc

笔记

zzqwtc

123 0 0

游客eg4csozvxxxr6

以下是我的个人简述

游客eg4csozvxxxr6

117 0 0

琦彦

|

存储 Kubernetes 安全

K8S原理剖析：安全原理剖析和实践

K8S原理剖析：安全原理剖析和实践

琦彦

378 0 0

K8S原理剖析：安全原理剖析和实践

游客7cz2gpweyyu5a

|

存储 Unix 程序员

说了这么多次 I/O，可你知道其中的原理么（一）

现在让我们转向对 I/O 软件的研究，I/O 软件设计一个很重要的目标就是设备独立性(device independence)。啥意思呢？这意味着我们能够编写访问任何设备的应用程序，而不用事先指定特定的设备。

游客7cz2gpweyyu5a

315 0 0

说了这么多次 I/O，可你知道其中的原理么（一）

游客3l7zwtdmj32km

|

XML 存储 Java

springIoc简述

IoC（控制反转：Inverse of Control），又称作依赖注入，是一种重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。

游客3l7zwtdmj32km

115 0 0

热门文章

最新文章

【 OSS 排查方案-9 上传 OSS 延迟超时】

Zabbix自定义KEY报错ZBX_NOTSUPPORTED: Unsupported item key.

TCP的几个状态 (SYN, FIN, ACK, PSH, RST, URG)

单目测距（yolo目标检测+标定+测距代码）下

ASP.NET Core 2 学习笔记（十）视图

WF4.0实战(八)：实现一套图形化的数据访问层

GNU make manual 翻译( 九十八)

js30--代理模式

获取 $_SERVER["REQUEST_URI"] 值的通用解决方案

利用JavaScript破解验证码

在阿里云服务器上如何搭建网站,网址怎么建站图文教程详解案例及步骤.

突破极限: 高负载场景下的单机300M多行正则日志采集不是梦

为什么要为 REST API 添加认证

离线VS强制登录？Apipost与Apifox的API工具理念差异深度解析

Text to Bark：让狗狗听懂人话！全球首个AI"狗语"生成器，137种狗狗口音任君挑选

AutoAgent：无需编程！接入DeepSeek用自然语言创建和部署AI智能体！港大开源框架让AI智能体开发变成填空题

Cua：Mac用户狂喜！这个开源框架让AI直接接管你的电脑，快速实现AI自动化办公

MCP Server 牛刀小试之雷池 MCP

基于GA遗传算法的斜拉桥静载试验车辆最优布载matlab仿真

基于爬山法MPPT和PI的直驱式永磁同步风力发电机控制系统simulink建模与仿真

相关课程

更多

NiFi知识精讲与项目实战（第二阶段）

PHP进阶教程 - 由浅入深掌握面向对象开发 - 第二阶段

NiFi知识精讲与项目实战（第一阶段）

Go语言核心编程 - 数据结构和算法

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

相关电子书

更多

深入理解分布式事务：原理与实战（试读版）

Storm源码走读笔记

典型模型-卷积神经网络入门从概念原理到应用实现

下一篇

阿里云oss简介和如何对接使用

你好，我是AI助理

可以解答问题、推荐解决方案等