ResponsibleTA提升LLM可靠性,任务完成更安全、更高效

简介: ResponsibleTA提升LLM可靠性,任务完成更安全、更高效


AI 智能助手照进现实。


近几个月,ChatGPT、GPT-4 等大语言模型(LLM)展现出突破性的理解、推理、生成、泛化和对齐能力,对各行各业的研究方式和生产效率均带来广泛而深远的变革及影响。此外,LLM 还展现出在真实世界的开放场景中解决复杂问题的能力,使科幻电影中无所不能的 AI 智能助手照进了现实

在实现自然场景中的任务自动化时,一个复杂的任务往往由多个子任务构成,这需要多个模型或 APIs 的协作。如何确保 LLM 和执行器之间高效、安全、稳定地协同工作,是构建 Responsible AI ,以及让 LLM 可靠地为人类提供服务的关键问题。

为了解决这个问题,来自微软亚洲研究院的研究团队提出 Responsible Task Automation (ResponsibleTA) 框架,提升 LLM 和执行器之间协同工作的安全性和有效性。



论文链接:https://arxiv.org/pdf/2306.01242.pdf项目主页:https://task-automation-research.github.io/responsible_task_automation/

方法
本文通提出一个新的任务自动化框架,通过可行性检测,完成度检验,用户隐私保护等三个模块,提高了大语言模型作为任务助手的可靠性,为未来的人机交互提供了一种可行的方式。

该系统框架包含基于 LLM 的中央处理单元、指令执行器、指令可行性预测器、指令完成度检验器和安全性保护器。

Responsible Task Automation (ResponsibleTA) 框架示意图

当 ResponsibleTA 接收到复杂任务对应的高层级指令时,安全性检测自动将包含用户隐私的命令实体替换成对应的占位符,然后将去隐私化的指令发送给部署在云端的 LLM,LLM 据此规划实现该负责任务目标的单步指令,然后发送给的部署在本地的执行器实际执行相关操作。从 Responsible AI 的角度出发,该框架赋予 LLM 三个新的能力:
1)可行性预测:ResponsibleTA 框架针对 LLM 和执行器的协同,开发设计了可行性预测模块。该模块用于对 LLM 的输出进行可行性判断,及时拦截不可行的执行指令,从而规避在执行这些指令的过程中产生的不可控风险。当 LLM 输出的指令判断为「不可行」时,可行性预测期会将其分析结果返回给 LLM,并要求其重新进行任务规划,力求将合理可行性的指令交付给执行器,提升任务自动化的成功率。

2)完成度检验:ResponsibleTA 框架设计了一个完成度检验器,用于在执行器每次执行结束后自动检查其执行结果是否符合预期。该模块根据执行器执行后的即时状态,判断 LLM 当前规划是否完成,并提供及时补救的可能。当执行状态判定为「未完成」时,完成度检验器会要求 LLM 启动 replanning,使其能够及时调整任务规划。

完成度检验器和上述可行性预测器,分别在 LLM 输出指令的执行前后,对指令的合理性和执行的完成性进行校验,为任务自动化的可靠性提供了双重保险。

3)用户隐私保护:ResponsibleTA 框架还设置了用户隐私保护机制,该机制通过一个本地记忆单元实现。当用户将高层级命令发送给部署在云端的大语言模型时,ResponsibleTA 中的隐私保护模块自动将命令中的隐私信息(如:用户名、密码、地址等)替换成对应的占位符,而当大语言模型将规划的低层级指令发送给部署在本地的执行器是,占位符会被自动替换成对应的真实信息。于此方式,用户的隐私信息仅在本地被存储和被使用,无需发送至云端,从而避免在传输和使用中的不可控风险。

针对 ResponsibleTA 中的可行性预测和完成度检查功能,其研究团队在 UI 任务自动化场景下提出并对比了两种不同的技术路线,并在实验部分详细分析了这两种技术路线的特点。以可行性预测为例,第一种技术方案通过 Prompting 的方式利用大语言模型内部知识进行判断。具体地,研究者训练了一个屏幕解析模型将 UI 页面解析成所含 UI 元素的语言描述,并将和指令一起输入给 GPT-4 模型,让 GPT-4 判断当前指令的可行性。具体方案如下图所示。

基于 prompt engineering 的(指令)可行性预测器实现方案


另一种技术方案在于训练一个专用的多模态模型,该模型接收 UI 页面的视觉信号和对应的语言指令为输入,输出该指令的可行性判定结果,具体结构如下图。

基于专用模型的(指令)可行性预测器实现方案
完成度检验器的实现方案于可行性预测器类似,在此不详细赘述。

实验
该工作的作者首先对 ResponsibleTA 中的关键模块进行定性实验,验证其有效性,并对比不同实现方式的特点。据下表所示实验结果,作者认为专用模型能够提供更优的实验结果但需要收集特定任务对应的数据和标注用于模型训练,而基于 LLM 的技术方案也能达到不错的效果,并在实际部署的成本和灵活性方面具有优势。

可行性预测器和完成度检验器的定性实验结果
作者还在真实世界的实际使用场景中进行 online testing, 并汇报了基线模型,具有可行性预测器的 ResponsibleTA 框架和完整版的 ResponsibleTA 框架在 12 个实际 UI 任务执行过程中的具体表现。作者观察到所提出的可行性预测器和完成度检验器能够避免执行不可理 / 不可行的指令,并能通过让 LLM 进行 replanning 的方式进行及时补救,从而提升任务自动化的成功率。

真实世界中实例研究定量结果。表格中的数字表示 「有效执行步数 / 总共执行步数 (人类专家执行步数)」。

此外,作者还通过具体的案例分析直观地展现了 ResponsibleTA 框架中的关键模型如何对一个失败案例进行补救,使其成为一个成功案例。

案例分析:进入亚马逊网站并将最便宜的充电器添加至购物车。

相关文章
|
24天前
|
机器学习/深度学习 人工智能 计算机视觉
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
MILS 是 Meta AI 推出的零样本生成高质量多模态描述方法,支持图像、视频和音频的描述生成,无需额外训练。
121 34
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
|
10天前
|
人工智能 自然语言处理 数据可视化
Agentic Reasoning:推理界RAG诞生!牛津大学框架让LLM学会『组队打怪』:动态调用搜索/代码代理,复杂任务准确率飙升50%
Agentic Reasoning 是牛津大学推出的增强大型语言模型(LLM)推理能力的框架,通过整合外部工具提升多步骤推理、实时信息检索和复杂逻辑关系组织的能力。
59 1
|
19天前
|
人工智能 语音技术
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽音频+文本多模态任务
Meta AI 研究团队提出了一种名为 SpiRit-LM 的新型多模态语言模型,该模型能够处理文本和音频,实现两者无缝融合。SpiRit-LM 通过“交织”方法训练,具备多模态融合、情感保留和多任务学习能力,在自动语音识别、文本转语音等任务上表现出色。它有 Base 和 Expressive 两个版本,后者能更好地捕捉情感表达。研究团队在多个基准上测试了其性能,并探索了其在语音助手、内容创作、教育和音频编辑等领域的应用前景。
33 1
|
3月前
|
人工智能 搜索推荐 决策智能
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
近期研究通过调整网络智能体的观察和动作空间,使其与大型语言模型(LLM)的能力对齐,显著提升了基于LLM的网络智能体性能。AgentOccam智能体在WebArena基准上超越了先前方法,成功率提升26.6个点(+161%)。该研究强调了与LLM训练目标一致的重要性,为网络任务自动化提供了新思路,但也指出其性能受限于LLM能力及任务复杂度。论文链接:https://arxiv.org/abs/2410.13825。
75 12
|
5月前
|
人工智能 自然语言处理 运维
前端大模型应用笔记(一):两个指令反过来说大模型就理解不了啦?或许该让第三者插足啦 -通过引入中间LLM预处理用户输入以提高多任务处理能力
本文探讨了在多任务处理场景下,自然语言指令解析的困境及解决方案。通过增加一个LLM解析层,将复杂的指令拆解为多个明确的步骤,明确操作类型与对象识别,处理任务依赖关系,并将自然语言转化为具体的工具命令,从而提高指令解析的准确性和执行效率。
112 6
|
7月前
|
数据采集 自然语言处理 测试技术
CMU&清华新作:让LLM自己合成数据来学习,特定任务性能同样大幅提升
【8月更文挑战第24天】近期研究提出SELF-GUIDE,一种创新方法,旨在通过大型语言模型(LLMs)自动生成特定任务数据并用于自我微调,以克服其在特定任务上的性能局限。SELF-GUIDE分为三个阶段:数据合成、模型微调及性能评估。通过向目标LLM提供适当提示生成高质量合成数据,并用于微调以提升特定任务表现。实验证明,该方法在Natural Instructions V2等多个基准测试中显著提升了分类与生成任务性能。SELF-GUIDE不仅有效提高性能,还具备高数据效率,减少对外部数据依赖。然而,生成数据质量受限于LLM能力,且并非适用于所有任务。
106 4
|
10月前
|
PyTorch 算法框架/工具 异构计算
【Hello AI】安装并使用DeepGPU-LLM-处理大语言模型任务
在处理大语言模型任务中,您可以根据实际业务部署情况,选择在不同环境(例如GPU云服务器环境或Docker环境)下安装推理引擎DeepGPU-LLM,然后通过使用DeepGPU-LLM工具实现大语言模型(例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型)在GPU上的高性能推理优化功能
|
10月前
|
机器学习/深度学习 存储 SQL
Web LLM 实验:利用 LLM 中不安全的输出处理
Web LLM 实验:利用 LLM 中不安全的输出处理
|
机器学习/深度学习 人工智能 自然语言处理
LLM系列 | 11: 基于ChatGPT构建智能客服系统(query分类&安全检查&防注入)
本文主要介绍如何使用ChatGPT对智能客服领域中的客户咨询进行分类。此外还补充构建真实应用中如何对用户咨询内容和模型生成内容进行安全检查及其如何预防用户注入。
|
机器学习/深度学习 自然语言处理 安全
LLM系列 | 15: 如何链接多个Prompt处理复杂任务?以智能客服为例
今天这篇小作文以智能客服场景为例,介绍如何通过将复杂任务拆分为一系列简单的子任务来链接多个Prompts

热门文章

最新文章