一线工程师 2025 总结:LLM 只用了不到 10%,剩下 90% 卡在哪?

简介: 2025年,LLM能力爆发,但多数企业仅用到其10%。真正瓶颈不在模型强弱,而在工程落地:延迟不可控、并发崩溃、换模成本高、成本失控成常态。当LLM从“工具”变为“基础设施”,中转层与系统稳定性成为关键。释放剩余90%潜力,需扎实的架构设计与工程治理。

2025 年,是很多工程师真正对 LLM “祛魅”的一年。

模型更强了,参数更多了,Benchmark 一次次被刷新。但与此同时,另一种声音在一线越来越清晰:

不是模型不行,是我们根本没把模型用起来。

在过去一年里,我参与或旁观了十多个 AI 项目从立项、试跑到上线,有的跑通了,有的悄无声息地停在了中途。复盘下来,一个结论越来越明确:

LLM 的能力,可能只被用到了 10%;剩下的 90%,卡在工程层。


一、那 10%,用在了哪里?

先说“已经被用到的那一小部分”。

大多数团队对 LLM 的使用,集中在这些场景:

  • 简单对话 / 问答
  • 文案生成
  • 代码补全
  • 单轮 Agent 调用
  • 内部工具提效

这些场景的共同点是:

  • 请求不密集
  • 出错成本低
  • 不需要强 SLA
  • 偶尔慢一点、错一点可以接受

在这个层级,模型能力决定体验。

所以很多人会误以为:

“模型已经这么强了,AI 应该很好落地。”

但真正的问题,从你试图把 LLM 接进 核心系统 的那一刻开始。


二、真正没被释放的 90%,卡在什么地方?

1️⃣ 卡在「延迟不可预测」

Demo 阶段你会发现:

  • 有时 500ms
  • 有时 3 秒
  • 有时直接超时

当 LLM 进入这些场景时:

  • 客服系统
  • 搜索补全
  • 实时决策
  • 多 Agent 协同

“平均延迟”这个指标已经没有意义了,P95 / P99 才是真正的生死线。

但很多团队第一次上线时才发现:

原来 API 的延迟,比模型能力更影响用户体验。


2️⃣ 卡在「并发一上来就不稳」

一开始是这样的:

  • 测试环境:一切正常
  • 小流量灰度:还能接受
  • 正式上线:429、502、超时轮番出现

原因并不复杂:

  • 官方 API 的并发限制
  • 网络抖动
  • 单模型单通道
  • 没有请求缓冲和降级

模型没崩,系统先崩了。

这也是为什么很多 AI 项目不是“失败”,而是“被悄悄下线”。


3️⃣ 卡在「模型不是随便就能换」

理论上大家都说:

“模型不行就换。”

现实是:

  • Prompt 强绑定模型行为
  • 不同模型 token 结构不同
  • 输出稳定性差异巨大
  • 切换成本远高于想象

结果就是:

模型选型一旦失误,整个系统就被锁死。

这 90% 的潜力,不是模型没给,是工程结构不允许你用。


4️⃣ 卡在「成本失控,但没人能提前算清楚」

2025 年,很多团队第一次被 LLM 账单“教育”。

  • 单次调用不贵
  • 乘以 QPS
  • 再乘以全天
  • 再叠加重试

最后发现:

AI 成了系统里最不可控的一项成本。

而真正的问题是:
调用路径不透明、缺乏统一治理。


三、真正的分水岭:LLM 是“工具”,还是“基础设施”?

到这里,很多工程师会意识到一个转折点:

  • 如果你只是“用模型”,问题不大
  • 如果你要“跑系统”,问题全来了

当 LLM 变成长期运行的能力,你关心的就不再是:

  • 模型强不强

而是:

  • 稳不稳定
  • 能不能兜底
  • 能不能切换
  • 成本是否可控
  • 出事能不能止血

这时候,模型已经退居二线,API 接入层成为主角。


四、为什么越来越多团队开始重视“中转层”?

2025 年,一个明显的趋势是:

工程团队开始把 LLM 当成外部不稳定依赖来治理。

这催生了对中转 API / 聚合层的真实需求:

  • 统一入口
  • 多模型路由
  • 并发与限流
  • 失败自动切换
  • 成本结构透明

也正是在大量企业真实踩坑之后,像 poloapi.top 这样的中转API平台,开始被放到“基础设施”层面来评估,而不再只是“便捷工具”。


五、写在最后:LLM 的上限,不在模型发布会

回头看 2025 年,你会发现一个很现实的结论:

LLM 的能力早就在那里了,只是大多数系统接不住。

真正限制 AI 上限的,不是参数规模,也不是新模型发布时间,而是:

  • 工程结构是否允许规模化
  • API 是否足够稳定
  • 架构是否为长期运行而设计

当这些问题被解决,那剩下的 90% 潜力,才有被真正释放的可能。

而这,恰恰不是模型公司最擅长的事,却是一线工程世界里,必须有人把坑踩完、把路铺平的部分。

相关文章
|
3天前
|
人工智能 Java API
【JAVA编程】全栈开发者如何构建 AI 大模型应用:OpenAI 与 Gemini 3.0 Pro 接入深度解析
Java开发者需关注API网关架构,以解决大模型调用中的供应商锁定、网络延迟与密钥管理难题。通过Spring Boot集成OpenAI兼容协议,结合poloapi.top聚合网关,实现多模型统一调用、低延迟访问与安全合规,构建稳定高效的企业级AI中台。
|
13天前
|
存储 SQL Apache
Flink + Fluss 实战: Delta Join 原理解析与操作指南
Flink Delta Join 通过复用源表数据替代本地状态,解决双流 Join 状态膨胀问题。结合 Fluss 流存储,实现高效双向 Lookup,显著降低资源消耗与 Checkpoint 时间,提升作业稳定性与恢复速度,已在阿里大规模落地。
184 25
Flink + Fluss 实战: Delta Join 原理解析与操作指南
|
4天前
|
边缘计算 人工智能 JSON
当多模态走向工程化:Gemini 3.0 Pro 在 API 架构中的适配与限制
随着Gemini 3.0 Pro等原生多模态模型落地,工程挑战从模型转向架构与网络。本文剖析其API适配难点,揭示连接性、协议差异与延迟问题,并提出通过托管聚合网关实现稳定低延迟调用,推动多模态能力在生产环境规模化应用,并探讨基于 poloapi.top 聚合网关(Aggregation Gateway)的跨区域调用方案。
|
13天前
|
SQL 存储 关系型数据库
从一条慢SQL说起:交易订单表如何做索引优化
本文首先以淘天电商交易订单表线上一条非典型慢 SQL 的深入剖析为切入点,示范如何系统地分析与排查慢 SQL;接着详尽归纳了索引分类、B+Tree 与 B‑Tree 的结构差异、B+Tree 高度估算方法、EXPLAIN 与 Query Profile 等诊断工具的使用,以及索引下推与排序的执行流程等索引优化理论;最后结合日常实践经验,提出了适用于大规模线上集群的索引变更 SOP,并总结了常见的慢 SQL 成因与相应的解决策略。
194 36
从一条慢SQL说起:交易订单表如何做索引优化
|
2天前
|
人工智能 API 开发者
2026年 AI LLM API 开发趋势:技术、架构与应用深度探讨
2026年,LLM API已成为企业开发核心。本文详解API调用、Prompt工程、多轮对话与流式输出,结合聚合平台如poloapi.top,助力开发者高效构建AI应用,把握技术前沿。
|
1天前
|
自然语言处理 运维 物联网
大模型微调技术入门:从核心概念到实战落地全攻略
本课程系统讲解大模型微调核心技术,涵盖全量微调与高效微调(LoRA/QLoRA)原理、优劣对比及适用场景,深入解析对话定制、领域知识注入、复杂推理等四大应用,并介绍Unsloth、LLaMA-Factory等主流工具与EvalScope评估框架,助力从入门到实战落地。