NLP还能做什么?北航、ETH、港科大、中科院等多机构联合发布百页论文,系统阐述后ChatGPT技术链(2)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: NLP还能做什么?北航、ETH、港科大、中科院等多机构联合发布百页论文,系统阐述后ChatGPT技术链

与环境交互



语言模型和环境属于两个不同的象限:语言模型建立在抽象的文字符号之上,擅长 high-level 的推理、规划、决策等任务;而环境建立在具体的感知信号之上(如视觉信息、听觉信息等),模拟或者自然发生一些 low-level 的任务,如提供观察 (observation)、反馈 (feedback)、状态更新 (state transition) 等(如:现实世界中一个苹果落到了地上,模拟引擎中一个 “苦力怕” 出现在了你的面前)。


因此,要让语言模型能够有效且高效地与环境进行交互,主要包括了两个方面的努力:


  1. Modality Grounding: 让语言模型可以处理图像、音频等多模态信息;
  2. Affordance Grounding: 让语言模型在环境具体场景的尺度下对可能的、恰当的对象执行可能的、恰当的动作。


对于 Modality Grounding 最为典型的就是视觉 - 语言模型。一般而言可以使用单塔模型如 OFA [28], 双塔模型如 BridgeTower [29], 或者语言模型与视觉模型的交互如 BLIP-2 [30] 来进行。这里不再多说,读者可以详看本论文。


对于 Affordance Grounding 主要有两个考虑,即:如何在给定任务的条件下进行 (1) 场景尺度的感知 (scene-scale perception), 以及 (2) 可能的动作 (possible action)。举个例子:



比如上图的场景,给定任务 “请关闭客厅里面的灯”,“场景尺度的感知” 要求我们找到全部红色框选的灯,而不要选中不在客厅而在厨房的绿色圈选的灯,“可能的动作” 要求我们确定可行的关灯方式,比如拉线灯需要使用 “拉” 的动作,而开关灯需要使用 “拨动开关” 的动作。


通常而言,Affordance Grounding 可以使用一个依附于环境的价值函数解决,如 SayCan [31] 等,也可以使用一个专门的 grounding model 如 Grounded Decoding [32] 等。甚至也可以通过与人、与模型、与工具等的交互来解决(如下图)。


Inner Monologue [33]


用什么交互:交互接口



在论文 Interaction Interface 章节,作者们系统地讨论了不同交互语言、交互媒介的用法和优劣,包括:


  1. 自然语言:如 few-shot example, task instruction, role assignment 甚至结构化的自然语言等。主要讨论了其在泛化性、表达性上的特点及作用等。
  2. 形式语言:如代码、语法、数学公式等。主要讨论了其在可解析性、推理能力上的特点及作用等。
  3. 机器语言:如 soft prompts, 离散化的视觉 token 等。主要讨论了其在泛化性、信息瓶颈理论、交互效率上的特点及作用等。
  4. 编辑:主要包括了对文本进行的删除、插入、替换、保留等操作。讨论了它的原理、历史、优势以及目前存在的局限。
  5. 共享记忆:主要包括了 hard memory 和 soft memory. 前者将历史状态记录在一个 log 里面作为记忆,后者使用一个可读可写的记忆外置模块保存张量。论文讨论了两者的特点、作用以及存在的局限等。


怎么交互:交互方法



论文还全面、详细、系统地讨论了各种各样的交互方法,主要包括:


  1. Prompting: 不调整模型参数,仅仅通过 prompt engineering 的方式调用语言模型,涵盖了上下文学习(In-Context Learning)、思维链提示 (Chain of Thought)、工具使用提示 (Tool-use)、级联推理链 (Prompt Chaining) 等多种方法,详细讨论了各种 Prompting 技巧的原理、作用、各种 trick 和局限等,比如在可控性和鲁棒性上的考虑等。
  2. Fine-Tuning: 进行模型参数的调整,以让模型从交互信息中进行学习更新。本节涵盖了监督指令精调 (Supervised Instruction Tuning)、参数高效精调 (Parameter-Efficient Fine-Tuning)、持续学习 (Continual Learning)、半监督学习 (Semi-Supervised Fine-Tuning) 等方法。详细讨论了这些方法的原理、作用、优势、在具体使用时的考虑、及其局限。其中还包括了部分 Knowledge Editing 的内容(即编辑模型内部的知识)。
  3. Active Learning: 交互式的主动学习算法框架。
  4. Reinforcement Learning: 交互式的强化学习算法框架,讨论了在线强化学习框架、离线强化学习框架、从人类反馈中学习(RLHF)、从环境反馈中学习(RLEF)、从 AI 反馈中学习 (RLAIF) 等多种方法。
  5. Imitation Learning: 交互式的模仿学习算法框架,讨论了在线模仿学习、离线模仿学习等。
  6. Interaction Message Fusion: 为上述所有交互方法提供了一个统一的框架,同时在这个框架中,向外扩展,讨论了不同的知识、信息融合方案,比如跨注意力融合方案 (cross-attention)、约束解码融合方案 (constrained decoding) 等。


其他讨论


囿于篇幅,本文不详细介绍其他方面的讨论,如评测、应用、伦理、安全以及未来发展方向等。但是这些内容在该论文原文中,仍然占据了 15 页的内容,因此推荐读者在原文中查看更多细节,以下为这些内容的大纲:


对交互的评测


论文中对评测的讨论主要涉及以下关键词:



交互式 NLP 的主要应用


  • 可控文本生成 (Controllable Text Generation)
  • 与人交互:RLHF 的思想钢印现象等
  • 与知识交互:Knowledge-Aware Fine-Tuning [34] 等
  • 与模型、工具交互:Classifier-Guided CTG 等
  • 与环境交互:affordance grounding 等


  • 交互式写作助手 (Writing Assistant)
  • Content Support: 内容支持型
  • Content Checking and Polishing:内容检查、润色型
  • Content Enrichment:内容丰富型
  • Content Co-creation:内容创作型


  • 具身智能 (Embodied AI)
  • Observation and Manipulation: 基础
  • Navigation and Exploration: 进阶 (e.g., long-horizon embodied tasks)
  • Multi-Role Tasks: 高级


  • 游戏 (Text Game)
  • 包含文本的交互式游戏平台:Interactive Text Game Platforms
  • 交互型语言模型如何玩转仅文本类型的游戏:Playing Text-Only Games
  • 交互型语言模型如何赋能包含文本媒介的游戏:Powering Text-Aided Games

  • 其他应用
  • 领域、任务专门化(Specialization):比如如何基于交互打造特定于金融领域、医学领域等的语言模型框架。
  • 个性化与人格化 (Personalization & Personality):比如如何基于交互打造特定于用户个人的、或者带有特定人格的语言模型。
  • 基于模型的评测(Model-based Evaluation)


伦理与安全


讨论了交互型语言模型在教育上的影响,还针对社会偏见、隐私等伦理安全问题进行了讨论。


未来发展方向与挑战


  • Alignment:语言模型的对齐问题,如何让模型的输出更加无害、更加符合人类价值观、更加有理有据等。
  • Social Embodiment:语言模型的 Grounding 问题,如何进一步推动语言模型具身化和社会化。
  • Plasticity:语言模型的可塑性问题,如何保证模型知识的持续更新,且不会在更新的过程中遗忘先前获得的知识。
  • Speed & Efficiency:语言模型的推理速度、训练效率等问题,如何在不影响性能的情况下,加速推理,以及加速训练的效率。
  • Context Length:语言模型的上下文窗口大小限制。如何扩充上下文的窗口大小,使其能够处理更长的文本。
  • Long Text Generation:语言模型的长文本生成问题。如何让语言模型在极长文本的生成场景下,也能保持优良的性能。
  • Accessibility:语言模型的可用性问题。如何让语言模型从闭源到开源,如何在不过度损失性能的前提下,让语言模型能够部署在边缘设备如车载系统、笔记本上等。
  • Analysis:语言模型的分析、可解释性等问题。比如如何预测模型 scaling up 之后的性能,以指导大模型的研发,如何解释大模型内部的机理等。
  • Creativity:语言模型的创造性问题。如何让语言模型更加具有创造性,能够更好地使用比喻、隐喻等,能够创造出新的知识等。
  • Evaluation:如何更好地针对通用大模型进行评测,如何评测语言模型在交互上的特性等。


参考文献

1.Experience Grounds Language, https://arxiv.org/abs/2004.10151

2.Tool Learning with Foundation Models

3.Foundation Models for Decision Making: Problems, Methods, and Opportunities

4.ChatGPT for Robotics: Design Principles and Model Abilities

5.Augmented Language Models: a Survey

6.Sparks of Artificial General Intelligence: Early experiments with GPT-4

7.Training language models to follow instructions with human feedback, https://arxiv.org/abs/2203.02155

8.Conversational AI, http://coai.cs.tsinghua.edu.cn/

9.AI Chains: Transparent and Controllable Human-AI Interaction by Chaining Large Language Model Prompts, https://arxiv.org/abs/2110.01691

10.Interactive Text Generation

11.Evaluating Human-Language Model Interaction

12.Transformer Memory as a Differentiable Search Index, https://arxiv.org/abs/2202.06991

13.Language Models as Knowledge Bases?, https://arxiv.org/abs/1909.01066

14.WebGPT: Browser-assisted question-answering with human feedback, https://arxiv.org/abs/2112.09332

15.Atlas:Few-shot Learning withRetrieval Augmented Language Models, https://arxiv.org/pdf/2208.03299.pdf

16.MINEDOJO:Building Open-EndedEmbodied Agents with Internet-Scale Knowledge, https://arxiv.org/pdf/2206.08853.pdf

17.Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, https://arxiv.org/abs/2201.11903

18.ReAct: Synergizing Reasoning and Acting Inlanguage Models, https://arxiv.org/abs/2210.03629

19.Least-to-Most Prompting Enables complex reasoning in Large Language Models, https://arxiv.org/pdf/2205.10625.pdf

20.Measuring and Narrowingthe Compositionality Gap in Language Models, https://ofir.io/self-ask.pdf

21.HuggingGPT, https://arxiv.org/abs/2303.17580

22.Toolformer: Language Models Can Teach Themselves to Use Tools, https://arxiv.org/abs/2302.04761

23.Socratic Models, https://arxiv.org/pdf/2204.00598.pdf

24.MindCraft: Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks, https://aclanthology.org/2021.emnlp-main.85/

25.Computational Language Acquisition with Theory of Mind, https://openreview.net/forum?id=C2ulri4duIs

26.Generative Agents: Interactive Simulacra of Human Behavior, https://arxiv.org/pdf/2304.03442.pdf

27.CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society, https://www.camel-ai.org/

28.OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework, https://arxiv.org/abs/2202.03052

29.BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning, https://arxiv.org/abs/2206.08657

30.BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, https://arxiv.org/pdf/2301.12597.pdf

31.Do As I Can,Not As I Say:Grounding Language in Robotic Affordances, https://say-can.github.io/

32.Grounded Decoding: Guiding Text Generation with Grounded Models for Robot Control, https://grounded-decoding.github.io/

33.Inner Monologue:Embodied Reasoning through Planning with Language Models, https://innermonologue.github.io/

Large Language Models with Controllable Working Memory, https://arxiv.org/abs/2211.05110

相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用与挑战
【10月更文挑战第3天】本文将探讨AI技术在自然语言处理(NLP)领域的应用及其面临的挑战。我们将分析NLP的基本原理,介绍AI技术如何推动NLP的发展,并讨论当前的挑战和未来的趋势。通过本文,读者将了解AI技术在NLP中的重要性,以及如何利用这些技术解决实际问题。
|
1月前
|
自然语言处理 API C++
阿里通义推出SmartVscode插件,自然语言控制VS Code,轻松开发应用,核心技术开源!
SmartVscode插件深度解析:自然语言控制VS Code的革命性工具及其开源框架App-Controller
|
2月前
|
人工智能
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 27 章:如何避开和绕过所有人工智能内容检测器
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 27 章:如何避开和绕过所有人工智能内容检测器
41 3
|
2月前
|
人工智能 数据处理
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 28 章:圣杯 = 专家 + ChatGPT 的协同作用
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 28 章:圣杯 = 专家 + ChatGPT 的协同作用
36 2
|
2月前
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 26 章:让 ChatGPT 成为你自己的提示工程师
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 26 章:让 ChatGPT 成为你自己的提示工程师
46 1
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用
随着人工智能技术的不断发展,自然语言处理(NLP)已经成为了一个重要的应用领域。本文将介绍一些常见的NLP任务和算法,并通过代码示例来展示如何实现这些任务。我们将讨论文本分类、情感分析、命名实体识别等常见任务,并使用Python和相关库来实现这些任务。最后,我们将探讨NLP在未来的发展趋势和挑战。
|
1月前
|
机器学习/深度学习 自然语言处理 语音技术
探索机器学习中的自然语言处理技术
【10月更文挑战第38天】在本文中,我们将深入探讨自然语言处理(NLP)技术及其在机器学习领域的应用。通过浅显易懂的语言和生动的比喻,我们将揭示NLP技术的奥秘,包括其工作原理、主要任务以及面临的挑战。此外,我们还将分享一些实用的代码示例,帮助您更好地理解和掌握这一技术。无论您是初学者还是有经验的开发者,相信您都能从本文中获得宝贵的知识和启示。
39 3
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
深度探索人工智能中的自然语言处理技术#### 一、
【10月更文挑战第28天】 本文旨在深入剖析人工智能领域中的自然语言处理(NLP)技术,探讨其发展历程、核心算法、应用现状及未来趋势。通过详尽的技术解读与实例分析,揭示NLP在智能交互、信息检索、内容理解等方面的变革性作用,为读者提供一幅NLP技术的全景图。 #### 二、
106 1
|
27天前
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习与自然语言处理的前沿技术:Transformer模型的深度解析
探索深度学习与自然语言处理的前沿技术:Transformer模型的深度解析
83 0
|
1月前
|
机器学习/深度学习 自然语言处理 算法
自然语言处理中的情感分析技术
自然语言处理中的情感分析技术