AI大模型应用开发实战(03)-为啥LLM还没能完全替代你?

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
视觉智能开放平台,视频资源包5000点
简介: 【8月更文挑战第4天】

1 不具备记忆能力的

它是零状态的,一些大模型产品,尤其他们的API,发现你和它对话,尤其是多轮对话时,经过一些轮次后,这些记忆就消失了,因为它也记不住那么多。

2 上下文窗口的限制

大模型对其输入、输出有数量限制。为保护它自己,这计算能力或保护相当于带宽的概念,如openAI之前只有32k。最新上下文窗口扩张到128k,相当于一本《Clean Code》,这角度来看,这个问题其实已被解决。

但其他很多模型上下文窗口还是比较小,就有很多限制。如不可发一长段prompt或提示词,也不可不停在那对话.

你要注意计算整个窗口token消耗,避免被截断。

3 实时信息更新慢,新旧知识难区分

基于预训练的模型,拿大量数据在神经网络的训练,然后形成模型,其知识库就依赖于拿去训练的这些材料。

底模数据较小时,就会出现幻觉,胡乱回答。

4 无法灵活的操控外部系统

很多大模型只可对话,但无法作为一个外脑去操作外部的一些系统。虽然ChatGPT出现插件机制、开发工具。但实际用后,还是相当于提供一个非常标准的东西,定制开发或更深度融合较难。

若想用大模型作为一个外脑操控智能家居系统、操控汽车,需要有一些连接器和框架帮助。

5 无法为领域问题提供专业靠谱答案

你问泛泛而谈的东西,都能回答好,可一旦问他非常专业问题,就答不上来,因为这专业问题,他可能不涉及。虽然他回答的答案是看起来是像一个人在回答,但一眼就能看出来那个答案不对。

针对以上问题,业界提出两种解决方案,但也都不能彻底解决。

6 解决方案

6.1 微调(Fine-tunning)

主要解决专业问题,专业知识库问题,包括知识更新问题。

把这些数据喂给大模型,再做次训练。其实一次训练也无法解决知识感知信息问题,只能更新其数据库。成本较高,因为相当于把你的数据喂给LLM,然后再全量训练一次,成本很高。

适用场景

做一些自有的大量数据的行业模型。所谓行业模型,如某专业领域的公司,积累大量行业数据,如制药公司在制药过程积累大量制药数据,你希望这个数据以AI智能方式指导工作,就可用这种方式。把这些数据喂给大模型,对它再做一次调教。

这就涉及到

MaaS

Module as a Service,模型即服务。通过这个微调在大模型基础上灌入行业数据,实现这种行业模型,适合手里拥有大量行业数据的。

这也只能解决领域数据专业性和知识库更新问题,无法解决操作外部系统、记忆能力、窗口扩张。

6.2 提示词工程(prompt engineering)

通过上下文提示词设计引导。在LLM基础上把这种专业数据通过:

  • Embedding嵌入
  • prompt提示词

这两个工具实现精准的专业回答,同时可实现:

  • 实时系统的感知
  • 操作外部系统
  • 记忆增强
  • 窗口控制扩张

好处明显,无需训练,不用去在LLM上面做训练。

适用场景

适合数据样本较少的场景。

如你有一本书,希望从这本书得到一些信息,但又不想去一个个字读它,你希望有机器人,你问他问题,他直接从书里找答案。这种就能把书的数据作为专业数据,然后嵌入到LLM,再通过prompt方式去引导,得到精确答案。

这过程中间甚至还可把这些答案,和打印机系统连接,直接打印。

小结

两种都可解决大模型问题,但适用场景不同,各自擅长点不一,很多时候,两者结合效果更好。

微调,现在已经把门槛降到很低了,可直接将你想微调的数据upload上去,但闭源大模型还存有数据安全问题,数据所有性问题和成本问题。

而提示词工程适合开源大模型,如chatglm。若在本地部署大模型,再做这种词嵌入和提示词引导,即可实现企业内部的专业行业模型。但底层LLM可能不那么强大,只有个6b、13b,可能在语言组织或一些智能度上稍低。代表就是LangChain。

7 总结

大模型的这几个问题都有,有两套这样的解决方案:

  • Model as aSerivce 模型即服务通过“微调”技术,在LLM基础上灌入行业数据,实现行业模型
  • promptengineering提示词工程,通过上下文提示词设计31号LM输出精确答案

都有自己的优劣点,然后都有自己适用的场景。

所以用啥方案呢?看所需项目的情况,本专栏偏向提示词工程, 即基于LangChain框架的方式。

目录
相关文章
|
14天前
|
人工智能
AI大模型初体验
为了实现真正的A,需不断学习以提升能力。
45 3
AI大模型初体验
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
【9月更文挑战第4天】赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
|
2天前
|
机器学习/深度学习 搜索推荐
CIKM 2024:LLM蒸馏到GNN,性能提升6.2%!Emory提出大模型蒸馏到文本图
【9月更文挑战第17天】在CIKM 2024会议上,Emory大学的研究人员提出了一种创新框架,将大型语言模型(LLM)的知识蒸馏到图神经网络(GNN)中,以克服文本图(TAGs)学习中的数据稀缺问题。该方法通过LLM生成文本推理,并训练解释器模型理解这些推理,再用学生模型模仿此过程。实验显示,在四个数据集上性能平均提升了6.2%,但依赖于LLM的质量和高性能。论文链接:https://arxiv.org/pdf/2402.12022
15 7
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
AI人工智能大模型的架构演进
随着深度学习的发展,AI大模型(Large Language Models, LLMs)在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进,包括从Transformer的提出到GPT、BERT、T5等模型的历史演变,并探讨这些模型的技术细节及其在现代人工智能中的核心作用。
39 9
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
AI战略丨物流 AI 新变化,用大模型定义
物流企业在大模型上纷纷主动探索,也在推动物流行业实现智能化加速。
|
15天前
|
人工智能 JSON 自然语言处理
你的Agent稳定吗?——基于大模型的AI工程实践思考
本文总结了作者在盒马智能客服的落地场景下的一些思考,从工程的角度阐述对Agent应用重要的稳定性因素和一些解法。
|
4天前
|
机器学习/深度学习 人工智能 搜索推荐
AI与未来医疗:革命性的技术,触手可及的健康
本文探讨了人工智能(AI)在医疗领域的应用及其潜力。从诊断辅助、个性化治疗到药物研发,AI正在改变我们理解健康和疾病的方式。同时,本文也讨论了AI面临的伦理挑战和数据隐私问题,呼吁建立相应的法律法规来保障患者权益。最后,本文对AI在未来医疗中的角色进行了展望,认为AI将继续推动医疗领域的创新和发展。
25 8
|
4天前
|
机器学习/深度学习 人工智能 搜索推荐
AI与未来医疗:革命性的技术,重塑健康格局
本文探讨了人工智能(AI)在医疗领域的应用及其对未来健康的深远影响。通过分析AI在疾病诊断、治疗和预防方面的具体案例,揭示了这一技术如何提升医疗服务的效率和准确性,并展望了AI在未来医疗中的潜力。
21 1
|
1天前
|
人工智能 云栖大会
AI Infra的前沿技术与应用实践 | 2024云栖大会预告
AI Infra的前沿技术与应用实践 | 2024云栖大会
|
1天前
|
人工智能 云栖大会
AI Infra 核心技术专题 | 2024 云栖大会预热
AI Infra 核心技术专题 | 2024 云栖大会