与环境交互
语言模型和环境属于两个不同的象限:语言模型建立在抽象的文字符号之上,擅长 high-level 的推理、规划、决策等任务;而环境建立在具体的感知信号之上(如视觉信息、听觉信息等),模拟或者自然发生一些 low-level 的任务,如提供观察 (observation)、反馈 (feedback)、状态更新 (state transition) 等(如:现实世界中一个苹果落到了地上,模拟引擎中一个 “苦力怕” 出现在了你的面前)。
因此,要让语言模型能够有效且高效地与环境进行交互,主要包括了两个方面的努力:
- Modality Grounding: 让语言模型可以处理图像、音频等多模态信息;
- Affordance Grounding: 让语言模型在环境具体场景的尺度下对可能的、恰当的对象执行可能的、恰当的动作。
对于 Modality Grounding 最为典型的就是视觉 - 语言模型。一般而言可以使用单塔模型如 OFA [28], 双塔模型如 BridgeTower [29], 或者语言模型与视觉模型的交互如 BLIP-2 [30] 来进行。这里不再多说,读者可以详看本论文。
对于 Affordance Grounding 主要有两个考虑,即:如何在给定任务的条件下进行 (1) 场景尺度的感知 (scene-scale perception), 以及 (2) 可能的动作 (possible action)。举个例子:
比如上图的场景,给定任务 “请关闭客厅里面的灯”,“场景尺度的感知” 要求我们找到全部红色框选的灯,而不要选中不在客厅而在厨房的绿色圈选的灯,“可能的动作” 要求我们确定可行的关灯方式,比如拉线灯需要使用 “拉” 的动作,而开关灯需要使用 “拨动开关” 的动作。
通常而言,Affordance Grounding 可以使用一个依附于环境的价值函数解决,如 SayCan [31] 等,也可以使用一个专门的 grounding model 如 Grounded Decoding [32] 等。甚至也可以通过与人、与模型、与工具等的交互来解决(如下图)。
Inner Monologue [33]
用什么交互:交互接口
在论文 Interaction Interface 章节,作者们系统地讨论了不同交互语言、交互媒介的用法和优劣,包括:
- 自然语言:如 few-shot example, task instruction, role assignment 甚至结构化的自然语言等。主要讨论了其在泛化性、表达性上的特点及作用等。
- 形式语言:如代码、语法、数学公式等。主要讨论了其在可解析性、推理能力上的特点及作用等。
- 机器语言:如 soft prompts, 离散化的视觉 token 等。主要讨论了其在泛化性、信息瓶颈理论、交互效率上的特点及作用等。
- 编辑:主要包括了对文本进行的删除、插入、替换、保留等操作。讨论了它的原理、历史、优势以及目前存在的局限。
- 共享记忆:主要包括了 hard memory 和 soft memory. 前者将历史状态记录在一个 log 里面作为记忆,后者使用一个可读可写的记忆外置模块保存张量。论文讨论了两者的特点、作用以及存在的局限等。
怎么交互:交互方法
论文还全面、详细、系统地讨论了各种各样的交互方法,主要包括:
- Prompting: 不调整模型参数,仅仅通过 prompt engineering 的方式调用语言模型,涵盖了上下文学习(In-Context Learning)、思维链提示 (Chain of Thought)、工具使用提示 (Tool-use)、级联推理链 (Prompt Chaining) 等多种方法,详细讨论了各种 Prompting 技巧的原理、作用、各种 trick 和局限等,比如在可控性和鲁棒性上的考虑等。
- Fine-Tuning: 进行模型参数的调整,以让模型从交互信息中进行学习更新。本节涵盖了监督指令精调 (Supervised Instruction Tuning)、参数高效精调 (Parameter-Efficient Fine-Tuning)、持续学习 (Continual Learning)、半监督学习 (Semi-Supervised Fine-Tuning) 等方法。详细讨论了这些方法的原理、作用、优势、在具体使用时的考虑、及其局限。其中还包括了部分 Knowledge Editing 的内容(即编辑模型内部的知识)。
- Active Learning: 交互式的主动学习算法框架。
- Reinforcement Learning: 交互式的强化学习算法框架,讨论了在线强化学习框架、离线强化学习框架、从人类反馈中学习(RLHF)、从环境反馈中学习(RLEF)、从 AI 反馈中学习 (RLAIF) 等多种方法。
- Imitation Learning: 交互式的模仿学习算法框架,讨论了在线模仿学习、离线模仿学习等。
- Interaction Message Fusion: 为上述所有交互方法提供了一个统一的框架,同时在这个框架中,向外扩展,讨论了不同的知识、信息融合方案,比如跨注意力融合方案 (cross-attention)、约束解码融合方案 (constrained decoding) 等。
其他讨论
囿于篇幅,本文不详细介绍其他方面的讨论,如评测、应用、伦理、安全以及未来发展方向等。但是这些内容在该论文原文中,仍然占据了 15 页的内容,因此推荐读者在原文中查看更多细节,以下为这些内容的大纲:
对交互的评测
论文中对评测的讨论主要涉及以下关键词:
交互式 NLP 的主要应用
- 可控文本生成 (Controllable Text Generation)
- 与人交互:RLHF 的思想钢印现象等
- 与知识交互:Knowledge-Aware Fine-Tuning [34] 等
- 与模型、工具交互:Classifier-Guided CTG 等
- 与环境交互:affordance grounding 等
- 交互式写作助手 (Writing Assistant)
- Content Support: 内容支持型
- Content Checking and Polishing:内容检查、润色型
- Content Enrichment:内容丰富型
- Content Co-creation:内容创作型
- 具身智能 (Embodied AI)
- Observation and Manipulation: 基础
- Navigation and Exploration: 进阶 (e.g., long-horizon embodied tasks)
- Multi-Role Tasks: 高级
- 游戏 (Text Game)
- 包含文本的交互式游戏平台:Interactive Text Game Platforms
- 交互型语言模型如何玩转仅文本类型的游戏:Playing Text-Only Games
- 交互型语言模型如何赋能包含文本媒介的游戏:Powering Text-Aided Games
- 其他应用
- 领域、任务专门化(Specialization):比如如何基于交互打造特定于金融领域、医学领域等的语言模型框架。
- 个性化与人格化 (Personalization & Personality):比如如何基于交互打造特定于用户个人的、或者带有特定人格的语言模型。
- 基于模型的评测(Model-based Evaluation)
伦理与安全
讨论了交互型语言模型在教育上的影响,还针对社会偏见、隐私等伦理安全问题进行了讨论。
未来发展方向与挑战
- Alignment:语言模型的对齐问题,如何让模型的输出更加无害、更加符合人类价值观、更加有理有据等。
- Social Embodiment:语言模型的 Grounding 问题,如何进一步推动语言模型具身化和社会化。
- Plasticity:语言模型的可塑性问题,如何保证模型知识的持续更新,且不会在更新的过程中遗忘先前获得的知识。
- Speed & Efficiency:语言模型的推理速度、训练效率等问题,如何在不影响性能的情况下,加速推理,以及加速训练的效率。
- Context Length:语言模型的上下文窗口大小限制。如何扩充上下文的窗口大小,使其能够处理更长的文本。
- Long Text Generation:语言模型的长文本生成问题。如何让语言模型在极长文本的生成场景下,也能保持优良的性能。
- Accessibility:语言模型的可用性问题。如何让语言模型从闭源到开源,如何在不过度损失性能的前提下,让语言模型能够部署在边缘设备如车载系统、笔记本上等。
- Analysis:语言模型的分析、可解释性等问题。比如如何预测模型 scaling up 之后的性能,以指导大模型的研发,如何解释大模型内部的机理等。
- Creativity:语言模型的创造性问题。如何让语言模型更加具有创造性,能够更好地使用比喻、隐喻等,能够创造出新的知识等。
- Evaluation:如何更好地针对通用大模型进行评测,如何评测语言模型在交互上的特性等。
参考文献
1.Experience Grounds Language, https://arxiv.org/abs/2004.10151
2.Tool Learning with Foundation Models
3.Foundation Models for Decision Making: Problems, Methods, and Opportunities
4.ChatGPT for Robotics: Design Principles and Model Abilities
5.Augmented Language Models: a Survey
6.Sparks of Artificial General Intelligence: Early experiments with GPT-4
7.Training language models to follow instructions with human feedback, https://arxiv.org/abs/2203.02155
8.Conversational AI, http://coai.cs.tsinghua.edu.cn/
9.AI Chains: Transparent and Controllable Human-AI Interaction by Chaining Large Language Model Prompts, https://arxiv.org/abs/2110.01691
10.Interactive Text Generation
11.Evaluating Human-Language Model Interaction
12.Transformer Memory as a Differentiable Search Index, https://arxiv.org/abs/2202.06991
13.Language Models as Knowledge Bases?, https://arxiv.org/abs/1909.01066
14.WebGPT: Browser-assisted question-answering with human feedback, https://arxiv.org/abs/2112.09332
15.Atlas:Few-shot Learning withRetrieval Augmented Language Models, https://arxiv.org/pdf/2208.03299.pdf
16.MINEDOJO:Building Open-EndedEmbodied Agents with Internet-Scale Knowledge, https://arxiv.org/pdf/2206.08853.pdf
17.Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, https://arxiv.org/abs/2201.11903
18.ReAct: Synergizing Reasoning and Acting Inlanguage Models, https://arxiv.org/abs/2210.03629
19.Least-to-Most Prompting Enables complex reasoning in Large Language Models, https://arxiv.org/pdf/2205.10625.pdf
20.Measuring and Narrowingthe Compositionality Gap in Language Models, https://ofir.io/self-ask.pdf
21.HuggingGPT, https://arxiv.org/abs/2303.17580
22.Toolformer: Language Models Can Teach Themselves to Use Tools, https://arxiv.org/abs/2302.04761
23.Socratic Models, https://arxiv.org/pdf/2204.00598.pdf
24.MindCraft: Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks, https://aclanthology.org/2021.emnlp-main.85/
25.Computational Language Acquisition with Theory of Mind, https://openreview.net/forum?id=C2ulri4duIs
26.Generative Agents: Interactive Simulacra of Human Behavior, https://arxiv.org/pdf/2304.03442.pdf
27.CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society, https://www.camel-ai.org/
28.OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework, https://arxiv.org/abs/2202.03052
29.BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning, https://arxiv.org/abs/2206.08657
30.BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, https://arxiv.org/pdf/2301.12597.pdf
31.Do As I Can,Not As I Say:Grounding Language in Robotic Affordances, https://say-can.github.io/
32.Grounded Decoding: Guiding Text Generation with Grounded Models for Robot Control, https://grounded-decoding.github.io/
33.Inner Monologue:Embodied Reasoning through Planning with Language Models, https://innermonologue.github.io/
Large Language Models with Controllable Working Memory, https://arxiv.org/abs/2211.05110