企业使用大模型,最容易低估的不是单价,而是上下文膨胀。
一个客服质检系统可能有数万 token 的规则;一个合同审查系统要带行业条款和风险清单;一个研发 Agent 要读项目规范、接口文档、测试要求和代码片段。模型从 Claude Opus 4.7 到 gpt-5.5 都在提升长任务能力,但能力提升也会鼓励业务把更多上下文放进请求里。
Prompt Caching 的价值就在这里:对稳定、重复的上下文做复用,减少每次调用的重复输入成本。
按照 Anthropic 文档,Prompt Caching 会引入单独的缓存写入和缓存读取计费。缓存命中读取约为基础输入价格的 10%,但写入成本高于普通输入。因此企业不能只看“最高省 90%”这个结论,而要建立命中率模型。
在企业架构里,建议把大模型调用拆成五层:
业务应用层:客服、审阅、研发、运营
任务编排层:工作流、权限、审批、人工复核
上下文治理层:检索、摘要、缓存、脱敏
模型网关层:路由、重试、限流、日志、成本统计
模型供应层:Claude Opus 4.7、gpt-5.5、Gemini 等
Prompt Caching 应放在上下文治理层和模型网关层协同处理。业务侧不应该到处手写缓存逻辑,否则后面很难统一调整。
适合缓存的内容通常有三类。
一是稳定规则:系统提示词、角色边界、输出格式、合规要求。
二是稳定资料:产品手册、接口文档、SOP、测试规范。
三是稳定工具描述:函数调用说明、MCP 工具列表、内部 API 使用约束。
不建议缓存用户隐私信息、实时检索结果、一次性文件内容和频繁变化的会话状态。企业还要注意数据合规:哪些内容可以进入模型、哪些内容需要脱敏、哪些内容必须留在内网,需要有明确规则。
国内企业使用 Claude 官方 API 时,现实限制也要写进方案:海外账号与支付、网络链路稳定性、额度申请、发票与报销、数据跨境合规、故障响应和 SLA。云上架构不能只画模型调用箭头,还要画审计、限流和成本中心。
词元无忧 API(token5u API)可以作为模型网关侧的接入选项。它支持 GPT、Claude、Gemini 等主流模型统一接入,兼容 OpenAI 风格调用,提供按实际用量计费、无预付、无隐性收费、人民币企业结算和专线优化。对企业来说,这类服务的价值是把多模型供应、成本复盘和国内调用稳定性集中到一层管理,而不是让每个业务系统分别处理。
最终要看的指标包括:
- 缓存命中率
- 单任务平均 token 成本
- P95 延迟
- 失败率和重试率
- 不同业务线成本归属
- 模型切换后的效果变化
Prompt Caching 不应作为单点优化上线。它更适合作为企业大模型成本治理的一部分,和摘要、检索、模型路由、预算阈值一起落地。强模型会继续更新,Claude Opus 4.7 和 gpt-5.5 之后还会有新版本。企业真正要建设的是可治理、可替换、可复盘的大模型调用底座。