AI大模型应用开发实战(03)-为啥LLM还没能完全替代你?

本文涉及的产品
多模态交互后付费免费试用,全链路、全Agent
简介: 【8月更文挑战第4天】

1 不具备记忆能力的

它是零状态的,一些大模型产品,尤其他们的API,发现你和它对话,尤其是多轮对话时,经过一些轮次后,这些记忆就消失了,因为它也记不住那么多。

2 上下文窗口的限制

大模型对其输入、输出有数量限制。为保护它自己,这计算能力或保护相当于带宽的概念,如openAI之前只有32k。最新上下文窗口扩张到128k,相当于一本《Clean Code》,这角度来看,这个问题其实已被解决。

但其他很多模型上下文窗口还是比较小,就有很多限制。如不可发一长段prompt或提示词,也不可不停在那对话.

你要注意计算整个窗口token消耗,避免被截断。

3 实时信息更新慢,新旧知识难区分

基于预训练的模型,拿大量数据在神经网络的训练,然后形成模型,其知识库就依赖于拿去训练的这些材料。

底模数据较小时,就会出现幻觉,胡乱回答。

4 无法灵活的操控外部系统

很多大模型只可对话,但无法作为一个外脑去操作外部的一些系统。虽然ChatGPT出现插件机制、开发工具。但实际用后,还是相当于提供一个非常标准的东西,定制开发或更深度融合较难。

若想用大模型作为一个外脑操控智能家居系统、操控汽车,需要有一些连接器和框架帮助。

5 无法为领域问题提供专业靠谱答案

你问泛泛而谈的东西,都能回答好,可一旦问他非常专业问题,就答不上来,因为这专业问题,他可能不涉及。虽然他回答的答案是看起来是像一个人在回答,但一眼就能看出来那个答案不对。

针对以上问题,业界提出两种解决方案,但也都不能彻底解决。

6 解决方案

6.1 微调(Fine-tunning)

主要解决专业问题,专业知识库问题,包括知识更新问题。

把这些数据喂给大模型,再做次训练。其实一次训练也无法解决知识感知信息问题,只能更新其数据库。成本较高,因为相当于把你的数据喂给LLM,然后再全量训练一次,成本很高。

适用场景

做一些自有的大量数据的行业模型。所谓行业模型,如某专业领域的公司,积累大量行业数据,如制药公司在制药过程积累大量制药数据,你希望这个数据以AI智能方式指导工作,就可用这种方式。把这些数据喂给大模型,对它再做一次调教。

这就涉及到

MaaS

Module as a Service,模型即服务。通过这个微调在大模型基础上灌入行业数据,实现这种行业模型,适合手里拥有大量行业数据的。

这也只能解决领域数据专业性和知识库更新问题,无法解决操作外部系统、记忆能力、窗口扩张。

6.2 提示词工程(prompt engineering)

通过上下文提示词设计引导。在LLM基础上把这种专业数据通过:

  • Embedding嵌入
  • prompt提示词

这两个工具实现精准的专业回答,同时可实现:

  • 实时系统的感知
  • 操作外部系统
  • 记忆增强
  • 窗口控制扩张

好处明显,无需训练,不用去在LLM上面做训练。

适用场景

适合数据样本较少的场景。

如你有一本书,希望从这本书得到一些信息,但又不想去一个个字读它,你希望有机器人,你问他问题,他直接从书里找答案。这种就能把书的数据作为专业数据,然后嵌入到LLM,再通过prompt方式去引导,得到精确答案。

这过程中间甚至还可把这些答案,和打印机系统连接,直接打印。

小结

两种都可解决大模型问题,但适用场景不同,各自擅长点不一,很多时候,两者结合效果更好。

微调,现在已经把门槛降到很低了,可直接将你想微调的数据upload上去,但闭源大模型还存有数据安全问题,数据所有性问题和成本问题。

而提示词工程适合开源大模型,如chatglm。若在本地部署大模型,再做这种词嵌入和提示词引导,即可实现企业内部的专业行业模型。但底层LLM可能不那么强大,只有个6b、13b,可能在语言组织或一些智能度上稍低。代表就是LangChain。

7 总结

大模型的这几个问题都有,有两套这样的解决方案:

  • Model as aSerivce 模型即服务通过“微调”技术,在LLM基础上灌入行业数据,实现行业模型
  • promptengineering提示词工程,通过上下文提示词设计31号LM输出精确答案

都有自己的优劣点,然后都有自己适用的场景。

所以用啥方案呢?看所需项目的情况,本专栏偏向提示词工程, 即基于LangChain框架的方式。

目录
相关文章
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
2天前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
73 4
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
3天前
|
设计模式 人工智能 API
AI智能体开发实战:17种核心架构模式详解与Python代码实现
本文系统解析17种智能体架构设计模式,涵盖多智能体协作、思维树、反思优化与工具调用等核心范式,结合LangChain与LangGraph实现代码工作流,并通过真实案例验证效果,助力构建高效AI系统。
69 7
|
2天前
|
人工智能 缓存 监控
使用LangChain4j构建Java AI智能体:让大模型学会使用工具
AI智能体是大模型技术的重要演进方向,它使模型能够主动使用工具、与环境交互,以完成复杂任务。本文详细介绍如何在Java应用中,借助LangChain4j框架构建一个具备工具使用能力的AI智能体。我们将创建一个能够进行数学计算和实时信息查询的智能体,涵盖工具定义、智能体组装、记忆管理以及Spring Boot集成等关键步骤,并展示如何通过简单的对话界面与智能体交互。
54 1
|
6月前
|
机器学习/深度学习 存储 缓存
加速LLM大模型推理,KV缓存技术详解与PyTorch实现
大型语言模型(LLM)的推理效率是AI领域的重要挑战。本文聚焦KV缓存技术,通过存储复用注意力机制中的Key和Value张量,减少冗余计算,显著提升推理效率。文章从理论到实践,详细解析KV缓存原理、实现与性能优势,并提供PyTorch代码示例。实验表明,该技术在长序列生成中可将推理时间降低近60%,为大模型优化提供了有效方案。
962 15
加速LLM大模型推理,KV缓存技术详解与PyTorch实现
|
3月前
|
弹性计算 关系型数据库 API
自建Dify平台与PAI EAS LLM大模型
本文介绍了如何使用阿里云计算巢(ECS)一键部署Dify,并在PAI EAS上搭建LLM、Embedding及重排序模型,实现知识库支持的RAG应用。内容涵盖Dify初始化、PAI模型部署、API配置及RAG知识检索设置。
自建Dify平台与PAI EAS LLM大模型
|
22天前
|
存储 缓存 负载均衡
LLM推理成本直降60%:PD分离在大模型商业化中的关键价值
在LLM推理中,Prefill(计算密集)与Decode(访存密集)阶段特性不同,分离计算可提升资源利用率。本文详解vLLM框架中的PD分离实现及局限,并分析Dynamo、Mooncake、SGLang等主流方案,探讨KV缓存、传输机制与调度策略,助力LLM推理优化。建议点赞收藏,便于后续查阅。
426 1
|
3月前
|
机器学习/深度学习 人工智能 编解码
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
|
3月前
|
人工智能 自然语言处理 数据可视化
AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
 AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统