一线工程师 2025 总结:LLM 只用了不到 10%,剩下 90% 卡在哪?

简介: 2025年,LLM能力爆发,但多数企业仅用到其10%。真正瓶颈不在模型强弱,而在工程落地:延迟不可控、并发崩溃、换模成本高、成本失控成常态。当LLM从“工具”变为“基础设施”,中转层与系统稳定性成为关键。释放剩余90%潜力,需扎实的架构设计与工程治理。

2025 年,是很多工程师真正对 LLM “祛魅”的一年。

模型更强了,参数更多了,Benchmark 一次次被刷新。但与此同时,另一种声音在一线越来越清晰:

不是模型不行,是我们根本没把模型用起来。

在过去一年里,我参与或旁观了十多个 AI 项目从立项、试跑到上线,有的跑通了,有的悄无声息地停在了中途。复盘下来,一个结论越来越明确:

LLM 的能力,可能只被用到了 10%;剩下的 90%,卡在工程层。


一、那 10%,用在了哪里?

先说“已经被用到的那一小部分”。

大多数团队对 LLM 的使用,集中在这些场景:

  • 简单对话 / 问答
  • 文案生成
  • 代码补全
  • 单轮 Agent 调用
  • 内部工具提效

这些场景的共同点是:

  • 请求不密集
  • 出错成本低
  • 不需要强 SLA
  • 偶尔慢一点、错一点可以接受

在这个层级,模型能力决定体验。

所以很多人会误以为:

“模型已经这么强了,AI 应该很好落地。”

但真正的问题,从你试图把 LLM 接进 核心系统 的那一刻开始。


二、真正没被释放的 90%,卡在什么地方?

1️⃣ 卡在「延迟不可预测」

Demo 阶段你会发现:

  • 有时 500ms
  • 有时 3 秒
  • 有时直接超时

当 LLM 进入这些场景时:

  • 客服系统
  • 搜索补全
  • 实时决策
  • 多 Agent 协同

“平均延迟”这个指标已经没有意义了,P95 / P99 才是真正的生死线。

但很多团队第一次上线时才发现:

原来 API 的延迟,比模型能力更影响用户体验。


2️⃣ 卡在「并发一上来就不稳」

一开始是这样的:

  • 测试环境:一切正常
  • 小流量灰度:还能接受
  • 正式上线:429、502、超时轮番出现

原因并不复杂:

  • 官方 API 的并发限制
  • 网络抖动
  • 单模型单通道
  • 没有请求缓冲和降级

模型没崩,系统先崩了。

这也是为什么很多 AI 项目不是“失败”,而是“被悄悄下线”。


3️⃣ 卡在「模型不是随便就能换」

理论上大家都说:

“模型不行就换。”

现实是:

  • Prompt 强绑定模型行为
  • 不同模型 token 结构不同
  • 输出稳定性差异巨大
  • 切换成本远高于想象

结果就是:

模型选型一旦失误,整个系统就被锁死。

这 90% 的潜力,不是模型没给,是工程结构不允许你用。


4️⃣ 卡在「成本失控,但没人能提前算清楚」

2025 年,很多团队第一次被 LLM 账单“教育”。

  • 单次调用不贵
  • 乘以 QPS
  • 再乘以全天
  • 再叠加重试

最后发现:

AI 成了系统里最不可控的一项成本。

而真正的问题是:
调用路径不透明、缺乏统一治理。


三、真正的分水岭:LLM 是“工具”,还是“基础设施”?

到这里,很多工程师会意识到一个转折点:

  • 如果你只是“用模型”,问题不大
  • 如果你要“跑系统”,问题全来了

当 LLM 变成长期运行的能力,你关心的就不再是:

  • 模型强不强

而是:

  • 稳不稳定
  • 能不能兜底
  • 能不能切换
  • 成本是否可控
  • 出事能不能止血

这时候,模型已经退居二线,API 接入层成为主角。


四、为什么越来越多团队开始重视“中转层”?

2025 年,一个明显的趋势是:

工程团队开始把 LLM 当成外部不稳定依赖来治理。

这催生了对中转 API / 聚合层的真实需求:

  • 统一入口
  • 多模型路由
  • 并发与限流
  • 失败自动切换
  • 成本结构透明

也正是在大量企业真实踩坑之后,像 poloapi.top 这样的中转API平台,开始被放到“基础设施”层面来评估,而不再只是“便捷工具”。


五、写在最后:LLM 的上限,不在模型发布会

回头看 2025 年,你会发现一个很现实的结论:

LLM 的能力早就在那里了,只是大多数系统接不住。

真正限制 AI 上限的,不是参数规模,也不是新模型发布时间,而是:

  • 工程结构是否允许规模化
  • API 是否足够稳定
  • 架构是否为长期运行而设计

当这些问题被解决,那剩下的 90% 潜力,才有被真正释放的可能。

而这,恰恰不是模型公司最擅长的事,却是一线工程世界里,必须有人把坑踩完、把路铺平的部分。

相关文章
|
4天前
|
人工智能 自然语言处理 C++
写小说时,Claude 4.0 和 4.5 的差别在哪里?
本文对比Claude Sonnet 4.0与4.5在小说创作中的实际表现,聚焦人物一致性、剧情连续性与长期可控性。基于Anthropic官方能力说明及多轮实测,指出4.5在多阶段续写、逻辑连贯性与风格稳定性上显著提升,更适配中长篇连载场景,助力AI写作从“能写”迈向“能长期写”。(239字)
|
24天前
|
人工智能 安全 API
Nacos 安全护栏:MCP、Agent、配置全维防护,重塑 AI Registry 安全边界
Nacos安全新标杆:精细鉴权、无感灰度、全量审计!
479 64
|
4天前
|
人工智能 前端开发 测试技术
Violit: Streamlit杀手,无需全局刷新,构建AI快捷面板
Violit 是新一代 Python Web 框架,融合 Streamlit 的简洁语法与 React 的响应式性能。首创 O(1) 信号状态架构,零重运行、无需 `@cache`/`key`/回调,支持桌面原生应用与 30+ 主题,开箱即用、极速如光。
77 15
|
22天前
|
机器学习/深度学习 人工智能 安全
构建AI智能体:八十六、大模型的指令微调与人类对齐:从知识渊博到善解人意
本文探讨了大模型从知识储备到实用助手的进化过程。首先分析了原始预训练模型存在的问题:擅长文本补全但缺乏指令理解能力,可能生成有害或无关内容。然后详细介绍了指令微调技术,通过高质量(指令-输出)数据集教会模型理解并执行翻译、总结、情感分析等任务。进一步阐述了人类对齐技术,包括基于人类反馈的强化学习(RLHF)的三个关键步骤,使模型输出不仅符合指令,更符合人类价值观。最后展示了Qwen模型微调实践,包括代码实现和效果对比。整个过程将AI从知识库转变为既强大又安全可靠的智能助手。
192 19
|
3天前
|
机器学习/深度学习 人工智能 计算机视觉
YOLO26改进 - 注意力机制 | 多扩张通道细化器MDCR 通过通道划分与异构扩张卷积提升小目标定位能力
本文介绍了一种在YOLO26目标检测模型中引入高效解码器模块EMCAD的创新方法,以提升模型在资源受限场景下的性能与效率。EMCAD由多个模块构成,其中核心的EUCB(高效上卷积块)通过上采样、深度可分离卷积、激活归一化和通道调整等操作,兼顾了特征质量与计算成本。实验结果显示,该模块在显著减少参数与FLOPs的同时仍具备优异性能。文章还提供了完整的YOLO26模型集成流程、配置和训练实战。
YOLO26改进 - 注意力机制 | 多扩张通道细化器MDCR 通过通道划分与异构扩张卷积提升小目标定位能力
|
25天前
|
人工智能 Java API
【JAVA编程】全栈开发者如何构建 AI 大模型应用:OpenAI 与 Gemini 3.0 Pro 接入深度解析
Java开发者需关注API网关架构,以解决大模型调用中的供应商锁定、网络延迟与密钥管理难题。通过Spring Boot集成OpenAI兼容协议,结合poloapi.top聚合网关,实现多模型统一调用、低延迟访问与安全合规,构建稳定高效的企业级AI中台。
|
23天前
|
自然语言处理 运维 物联网
大模型微调技术入门:从核心概念到实战落地全攻略
本课程系统讲解大模型微调核心技术,涵盖全量微调与高效微调(LoRA/QLoRA)原理、优劣对比及适用场景,深入解析对话定制、领域知识注入、复杂推理等四大应用,并介绍Unsloth、LLaMA-Factory等主流工具与EvalScope评估框架,助力从入门到实战落地。
|
14天前
|
存储 人工智能 数据库
Agentic Memory 实践:用 agents.md 实现 LLM 持续学习
利用 agents.md 文件实现LLM持续学习,让AI Agent记住你的编程习惯、偏好和常用信息,避免重复指令,显著提升效率。每次交互后自动归纳经验,减少冷启动成本,跨工具通用,是高效工程师的必备技能。
124 17
Agentic Memory 实践:用 agents.md 实现 LLM 持续学习