前端大模型应用笔记(一):两个指令反过来说大模型就理解不了啦?或许该让第三者插足啦 -通过引入中间LLM预处理用户输入以提高多任务处理能力

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,视频通用资源包5000点
简介: 本文探讨了在多任务处理场景下,自然语言指令解析的困境及解决方案。通过增加一个LLM解析层,将复杂的指令拆解为多个明确的步骤,明确操作类型与对象识别,处理任务依赖关系,并将自然语言转化为具体的工具命令,从而提高指令解析的准确性和执行效率。

今天就遇到有点儿dt的问题,利用大模型顺利通了自定义的工具调用(并没有用到tools功能,而是通过prompt强制输出),单个单个的没问题哈,但是多个一起就出现问题了

我说“关闭电脑PC1, 打开第2台电脑” 它看不懂了,但我反过来说“打开第2台电脑,关闭电脑PC1”,它倒是很机智,顺利找到了对应的主机id并调用了正确的工具,反正我是一脸懵逼,这到底是个什么鬼?毕竟是个黑盒,找到原因可能难但问题必须解决撒,只能另辟蹊径(PS这个不是恶作剧,而是一个云桌面的运维后台,我正研究如何利用AI提升效率)

1 问题背景:自然语言指令处理中的困境

在多任务处理的场景下,用户可能会提出一些包含多个动作的指令,比如:

  • “关闭电脑PC1,打开第2台电脑。”
  • “打开第四台电脑,关闭电脑PC1。”

通过实际测试,发现模型在面对这些复杂指令时,有时无法正确理解和执行所有任务。例如:

  • 当用户要求“关闭电脑PC1,打开第2台电脑”时,模型可能无法正确调用两个工具来分别执行这两个操作。
  • 但当指令顺序被调整为“打开第四台电脑,关闭电脑PC1”时,模型能够正确地按顺序调用工具,并且完成了用户的需求。

17368ae4857b4cb78c3cb91c02bd853c.png

image.gif 编辑

这种现象提示我们,模型在解析和执行指令时受到指令语序和结构的影响。因此,我们需要一种方法来更好地解析用户的复杂指令,并将其转换为具体的可执行操作。

2 解决方案:通过 LLM 解析层进行指令分解

为了让 LLM 更好地处理这些复杂的自然语言指令,建议增加一个专门的解析层,用于将原始的自然语言需求转换为多个明确的、可执行的步骤。该解析层可以通过 LLM 来实现,具体功能如下:

1. 分解复杂指令为多个步骤

用户的自然语言指令往往包含多个动作,这些动作有时是并行的,有时是按顺序执行的。通过 LLM 解析层,我们可以将复杂的指令进行拆解。例如:

  • 用户输入:“关闭电脑PC1,打开第2台电脑。”
  • 解析层输出:
  • Step 1: 关闭电脑PC1
  • Step 2: 打开第2台电脑

通过这种方式,每一个步骤都变得更加明确,可以独立执行,并且避免了模型对多个并列任务的混淆。

2. 明确操作类型与对象识别

解析层可以帮助模型更好地理解每个指令中的动词(如“关闭”或“打开”)及其作用对象(如“电脑PC1”或“第2台电脑”)。例如:

  • 用户输入:“打开第四台电脑,关闭电脑PC1。”
  • 解析层输出:
  • Action 1: 打开 -> 电脑PC4
  • Action 2: 关闭 -> 电脑PC1

通过这种明确的操作类型和对象识别,模型可以清晰地理解每个操作需要作用的目标,并根据目标生成正确的操作命令。

3. 处理任务的依赖关系

在复杂的任务环境中,某些操作之间存在依赖关系。例如,可能需要先关闭一台电脑再打开另一台。这时,解析层可以识别这些依赖关系,并为模型生成有序的执行步骤。对于顺序不明的任务,解析层可以判断是否需要并行执行任务,或者是否需要调整任务的顺序。

4. 自然语言转为工具命令

通过解析层,模型可以将复杂的自然语言指令转化为系统所需的结构化工具命令。以关闭和打开电脑为例,经过解析的步骤最终可以生成具体的 API 调用或命令行操作,如:

  • Command 1: 关闭(PC1)
  • Command 2: 打开(PC2)

这种方法将自然语言需求转化为明确的系统命令,使得多任务处理更加高效且可控。

3 实践示例

假设用户发出了如下复杂指令:

  • 用户输入:“请先关闭PC3,然后开启PC1和PC4,最后关掉PC2。”

通过 LLM 解析层,这个复杂的需求可以被拆解为多个明确的任务步骤:

  1. Step 1: 关闭 PC3
  2. Step 2: 开启 PC1
  3. Step 3: 开启 PC4
  4. Step 4: 关闭 PC2

模型再根据这些步骤依次执行任务,或者将并行任务(如开启PC1和PC4)同时处理,最终确保任务按预期完成。

4 如何设计解析层

要设计一个高效的 LLM 解析层,需要注意以下几个关键点:

  1. 鲁棒的指令拆解能力:解析层需要能够理解复杂的自然语言指令,并准确提取出任务的关键动词和作用对象。比如,“关闭”“打开”等动词以及“PC1”“PC4”等对象的识别必须准确无误。
  2. 任务依赖关系的识别:解析层必须能够处理任务之间的依赖关系,确保前后顺序的合理性。在需要时,能够区分并行任务与串行任务。
  3. 应对模糊指令的能力:用户的自然语言可能包含模糊表达,如“打开所有电脑”,解析层需要能够处理这种模糊需求,推理出上下文中的具体执行对象。
  4. 灵活性与适应性:解析层还需要能够应对不同领域的任务需求,具有足够的灵活性来解析不同语境下的指令。

5 总结

通过增加一个 LLM 解析层,可以极大提高多任务处理场景中指令解析的准确性和执行效率。它不仅可以将复杂的自然语言指令拆解为多个明确的操作步骤,还能够根据任务间的依赖关系调整顺序,生成具体的工具命令,确保任务的正确执行。


目录
打赏
0
6
6
0
58
分享
相关文章
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
MILS 是 Meta AI 推出的零样本生成高质量多模态描述方法,支持图像、视频和音频的描述生成,无需额外训练。
155 34
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
2001 20
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
2月前
|
LLM破局泛化诊断难题,MSSP刊登北航PHM实验室健康管理大模型交叉研究
北航PHM实验室提出了一种基于大型语言模型(LLM)的轴承故障诊断框架,结合传统诊断技术,解决了跨条件适应性、小样本学习和跨数据集泛化等问题。该框架通过信号特征量化方法提取振动数据的语义信息,并采用LoRA和QLoRA微调预训练模型,显著提升了诊断模型的泛化能力。实验结果显示,在跨数据集训练中,模型准确性提升了约10%,相关成果发表于《Mechanical Systems and Signal Processing》期刊。尽管存在计算资源需求高等挑战,该研究为旋转机械的高效维护提供了新思路。
52 2
Nature:人类亲吻难题彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具
近期,《自然》杂志发表的研究显示,所有大型语言模型(LLM)在解释特定情境下人类亲吻行为时均失败。尽管LLM在语言处理和文本生成上表现出色,但在理解和推理复杂人类行为方面存在显著限制,表明其缺乏对人类情感、社会及文化背景的深入理解。专家认为LLM更像是工具而非智能体,虽在客户服务、内容创作等领域有价值,但在复杂推理和理解方面仍显不足。
107 37
FlowiseAI:34K Star!集成多种模型和100+组件的 LLM 应用低代码开发平台,拖拽组件轻松构建程序
FlowiseAI 是一款开源的低代码工具,通过拖拽可视化组件,用户可以快速构建自定义的 LLM 应用程序,支持多模型集成和记忆功能。
288 14
FlowiseAI:34K Star!集成多种模型和100+组件的 LLM 应用低代码开发平台,拖拽组件轻松构建程序
Agentic Reasoning:推理界RAG诞生!牛津大学框架让LLM学会『组队打怪』:动态调用搜索/代码代理,复杂任务准确率飙升50%
Agentic Reasoning 是牛津大学推出的增强大型语言模型(LLM)推理能力的框架,通过整合外部工具提升多步骤推理、实时信息检索和复杂逻辑关系组织的能力。
113 1
基于Dify +Ollama+ Qwen2 完成本地 LLM 大模型应用实战
尼恩,一位拥有40年经验的老架构师,通过其丰富的行业经验和深入的技术研究,为读者提供了一套系统化、全面化的LLM大模型学习圣经。这套学习资料不仅帮助许多从业者成功转型,还助力多位工程师获得了高薪工作机会。
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽音频+文本多模态任务
Meta AI 研究团队提出了一种名为 SpiRit-LM 的新型多模态语言模型,该模型能够处理文本和音频,实现两者无缝融合。SpiRit-LM 通过“交织”方法训练,具备多模态融合、情感保留和多任务学习能力,在自动语音识别、文本转语音等任务上表现出色。它有 Base 和 Expressive 两个版本,后者能更好地捕捉情感表达。研究团队在多个基准上测试了其性能,并探索了其在语音助手、内容创作、教育和音频编辑等领域的应用前景。
64 1
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
近期研究通过调整网络智能体的观察和动作空间,使其与大型语言模型(LLM)的能力对齐,显著提升了基于LLM的网络智能体性能。AgentOccam智能体在WebArena基准上超越了先前方法,成功率提升26.6个点(+161%)。该研究强调了与LLM训练目标一致的重要性,为网络任务自动化提供了新思路,但也指出其性能受限于LLM能力及任务复杂度。论文链接:https://arxiv.org/abs/2410.13825。
92 12

热门文章

最新文章