5. GPT-3及in-context learning
2020年GPT-3的工作 [7],延续了GPT-2的愿景和技术路线,希望突破在各个任务中仍需任务特定标注及微调的缺陷(there is still a need for task-specific datasets and task-specific fine-tuning),希望能建设象人一样的通用系统,文中清晰指出其中研究动机之一是注意到:
「humans do not require large supervised datasets to learn most language tasks – a brief directive in natural language (e.g. 『please tell me if this sentence describes something happy or something sad』) or at most a tiny number of demonstrations (e.g. 『here are two examples of people acting brave; please give a third example of bravery』) is often sufficient to enable a human to perform a new task to at least a reasonable degree of competence.」
也就是说给了任务描述(directive)和示范样本(demonstrations),机器应该就能象人一样执行多样的任务。GPT-3再次拉升规模(scaling up)到了一个新高度,训练集规模为45TB文本(清洗前)、570GB(清洗后),Transformer-LM规模比GPT-2又增加了10倍,达到了175B(见下Table 2.1)。GPT-2文章主要做了零样本提示情形,GPT-3则做了零样本(zero-shot),单样本(single-shot)以及少样本(few-shot)情形的实验,统称为In Context Learning(情景学习),其中给出的示范样本(demonstrations)可以是0个、1个或多个,但都会带有任务描述(task description),见Figure 2.1的图示说明。从Figure1.2可看出,随着示范样本的增多,不同规模的模型的性能提升的趋势。(以上均来自GPT-3原文 [7]「Language Models are Few-Shot Learners」)
6. InstructGPT, ChatGPT及RLHF技术
目前大型语言模型(large language model, LLM)用于自然语言理解的做法是,依据P(output | task,input),给定上文task,input,递归生成下一个符号。InstructGPT研究的一个出发点是考虑到在人机对话中,增大语言模型并不能从本质上使它们更好地遵循用户意图。大型语言模型也会表现出不尽人意的行为,如编造事实,生成有偏有害文本,或根本对用户没有帮助。这是因为许多最近的大型 LM 使用的语言建模目标是,预测来自互联网的网页上的下一个符号,这不同于「有帮助和安全地遵循用户的指示」的目标。因此,我们说语言建模目标是未对齐的(misaligned)。避免这些意外行为,对于在数百个应用程序中部署和使用语言模型尤为重要。2022年3月,InstructGPT工作[8]展示了一种途径,可以通过根据人类反馈进行微调,使语言模型在一系列任务上对齐到用户意图(aligning language models with user intent),得到的模型称为InstructGPT。具体来说,如下Figure 2所示,InstructGPT构建过程包含三步:第1 步:收集演示数据(13K条数据),使用有监督学习微调GPT-3(大小为175B),训练得到supervised policy(有监督策略)。第2步:收集对比数据(33K条数据),训练出reward model(奖励模型),大小为6B。第3步:收集31K条训练数据,使用强化学习针对奖励模型来优化策略,称为从人类反馈中强化学习(reinforcement learning from human feedback, RLHF)。具体是使用称为PPO的策略优化方法[9]。对演示数据和对比数据的收集,使用了40人的外包标注员。
(来自IntructGPT原文[8]「Training language models to follow instructions with human feedback」)
2022年11月,OpenAI发布的ChatGPT模型 [10],基本是InstructGPT模型的沿袭,使用了相同的三步骤训练方法,但是收集了更大规模的数据,进行模型训练和系统构建。总结:从语言模型研究、Transformer神经网络架构、GPT语言模型及预训练+微调、GPT-2及零样本提示(zero-shot prompting)、GPT-3及情景学习(in-context learning),发展到InstructGPT,ChatGPT及RLHF技术,回头看看上去是一条比较清晰的技术路径,但事实上,其它类型的语言模型(比如基于能量的语言模型 [11])、其它类型的神经网络架构(比如状态空间模型 [12])、其它类型的预训练办法(比如基于隐变量模型 [13])、其它的强化学习办法(比如基于用户仿真器 [14])等,都在不断发展中,新方法研究从来没有停止过,不同方法间相互启发、相互促进,形成通往通用人工智能的滚滚洪流,奔涌向前,生生不息。贯穿ChatGPT六部曲的很重要一点是,规模效应,俗称暴力美学。在路线基本正确的判断下,把规模拉上去,是提升性能的好办法。量变产生质变,量变未必产生质变,如果路线存在不足的话。下面谈谈ChatGPT的不足。
02 ChatGPT的不足
近年来人工智能领域的顶会(如ICML, ACL)的一个非常好的做法,就是对投稿增加了一项要求,在文章中需留一节表述自己工作的不足(Limitations)。相反,对不足避而不谈,并不严谨,也不利于对一项技术的全面认识,可能误导大众、助长伊莉莎效应乃至错误判断。事实上,ChatGPT原文[10]对其不足,已经做了比较全面的声明。ChatGPT的不足(截图来自ChatGPT原文[10])读者可以直接看上面英文,下面用中文稍做一下解释。读者可以结合下面的例子进行理解。我们对ChatGPT不足的更多分析,将在下一章探讨迈向AGI(通用人工智能)所面临的挑战时来一起讨论。L1. ChatGPT 有时会写出看似合理但不正确或荒谬的答案。L2. ChatGPT 对输入措辞的调整或多次尝试相同的提示很敏感。L3. ChatGPT的生成,通常过于冗长并过度使用某些短语,例如重申它是 OpenAI 训练的语言模型。L4. 理想情况下,当用户提供模棱两可的查询时,模型应该提出要求对方做澄清的问题。相反,当前的模型通常会猜测用户的意图。L5. 虽然ChatGPT已努力使模型拒绝不当请求,但有时仍会响应有害指令或表现出有偏见的行为。
图4:ChatGPT有关牛蛋和鸡蛋的例子
图5:有关ChatGPT实时信息处理不足的例子
03 迈向AGI的挑战
结合ChatGPT原文[10]自述的不足,我们将ChatGPT的不足概括为以下五点。这五点也基本代表了从ChatGPT往未来看,迈向通用人工智能(AGI)所面临的挑战,是迈向AGI所亟待解决的重要科学问题和关键技术。值得指出的,本文的角度并不是以任务来分析不足和挑战,而更多是从各类任务的共性问题的角度来分析。如果以任务为行,问题为列,那我们的角度是按列来分析。按行也可以给出非常好的分析和判断。当讨论AGI之时,我们需跳出仅关注自然语言处理的局限,以更大的视野审视人工智能的研究和技术。参考人工智能经典著作[15],人工智能指智能体的研究与设计,智能体(intelligent agent)指任何设备,其可以观察周遭环境并作出行动以最大化成功机会,更学术的说法是,最大化期望效用(utility)或最大化期望回报(return),如下图所示。细心的读者会发现,下图也常用于强化学习的框架图。确实如此,在[15]有类似阐述,「Reinforcement learning might be considered encompass all of AI」(强化学习可能被认为涵盖了人工智能的所有)。带着这些概念,我们来认识ChatGPT的不足。图6:智能体与环境的交互,常用于作为强化学习的框架图[16]1. ChatGPT会随机编造(一本正经地给出错误的信息),在知识建模及利用上存在明显不足。这基本对应前面介绍的L1,可以从前面的例子清楚看出来。我们所说的知识,包括常识知识,专门知识,以及实时信息等方面。例如,从常识来讲,ChatGPT一开始表现出并不知道牛是哺乳动物,不能产蛋。从实时信息来看,ChatGPT,本质上是一个基于Transformer架构的大型自回归语言模型,其学到的知识仅限于其训练数据,其截止年份为2021年。读者可以自行尝试使用ChatGPT,发现其在这方面的不足。上述不足,从更深层次来说,反映了人工智能历史上由来已久的联结主义(connectionist)与符号主义(symbolism)的两股思潮的纷争。
- 联结主义,简单说就是主张使用人工神经网络(一种数学上的非线性函数)去实现人工智能。当前的深度学习以及ChatGPT是联结主义路线下的成功。
- 符号主义,简单说就是主张使用符号是实现智能的核心手段,实现智能应该注重数理逻辑和知识推理。举一个符号系统的经典例子,语言的上下文无关语法认为语言包括一些终结符,一些非终结符,以及一些重写规则。理解一句话,包括理解这句话背后的语法结构。
图7联结主义认为知识埋藏于神经网络的权重,训练神经网络调整其权重能让其学习知识。符号主义主张知识由符号系统来组织,比如关系型数据库,知识图谱,数学物理等其它专门知识,以及数理逻辑。两种思潮也在交叉融合,比如
- 基于神经网络的生成式对话系统,用从知识库进行检索来增强 [17];
- 促进大型语言模型(LLM)推理能力的思维链(CoT,Chain of Thought)方法[18]。
因此,为克服ChatGPT在知识建模及利用上的不足,对现有技术的一个深层次挑战是,神经网络与符号逻辑的有效融合。数据与知识双轮驱动,多年来有不少研究工作,但总的来说找到行之有效的融合办法仍需持续努力。2. ChatGPT在多轮对话交互上存在明显不足,缺乏规划能力。这基本对应上面的L4,L4只是指出ChatGPT不会做澄清提问。但是我们看到比L4更严重的不足,从ChatGPT的构建过程看,它是建模条件分布 P(output | input) 进行预测(prediction),并不会做规划(planning)。在图6所示框架中,一个很重要的概念是规划(planning),规划的目的是,为了最大化期望效用。这显著不同于大型语言模型最大化语言符号出现的条件似然 P(output | input)。InstructGPT考虑系统应该遵循用户意图,用RLHF(从人类反馈中强化学习)的技术让系统输出对齐到人类提问,部分地缓解了对GPT-3做有监督学习而没有进行规划而带来的未对齐问题。进一步提高规划能力实现最大化期望效用,将是ChatGPT通往AGI的一个大挑战。那么人机交互系统的效用是什么呢?有关这点,InstructGPT的论文[8]对此从有帮助(helpful),诚实(honest),无害(harmless)三个维度有过讨论。「我们希望语言模型是有帮助的(它们应该帮助用户解决他们的任务)、诚实的(它们不应该伪造信息或误导用户)和无害的(它们不应对人或环境造成身体、心理或社会伤害)。」但具体的实现手段,尚需进一步探索,而不是止步于RLHF技术。3. ChatGPT行为不可控(uncontrollable)。这基本对应上面的L2、L3、L5。系统输出对输入很敏感(L2),没法控制它输出过于冗长或者过度使用某些短语(L3),没法控制它响应有害指令或表现出有偏见的行为(L5)。这些不足不仅仅出现在ChatGPT,在以目前深度学习技术构建起来的计算机视觉,语音识别等智能系统中,也有类似不可控问题。人类具有苏格拉底式的智慧,即「自己知道自己不知道」,这正是现在的深度神经网络系统欠缺的,自己不知道自己出错了。现在的神经网络系统大都过于自信(over-confident),不会向人类做出错汇报,在出错时似然仍出奇得高,让人难以信赖和控制。可信赖(Trustworthy)和可控,将是通往AGI的一个大挑战。4. ChatGPT效率(efficiency)不足。在ChatGPT声明的不足中并没重视这点。效率包括参数效率,数据效率,能耗效率等。ChatGPT通过使用超大数据,训练超大模型,不断拉升规模,取得了一个出彩的性能。但是,在同等规模下(同等的模型参数个数,同等的数据标注量或标注成本,同等的算力,同等的能耗),ChatGPT是否代表了最先进的技术呢?答案很多时候是否定的。例如,最近的研究报道[19],参数个数13B的LLaMA 模型在多个基准测试中性能优于175B的GPT-3模型,因此13B的LLaMA具有更好的参数效率。近期我们自己的工作也表明,一个良好设计的知识检索对话模型仅用100M,性能显著超过1B的大模型。能耗效率好理解,我们来看数据效率。目前的智能系统构建,困于依赖大量人工标注下有监督学习范式,数据效率低。基于自回归的大型语言模型,人们发现可以先在大量(无需标注的)文本上训练,然后使用微调或提示技术,部分缓解了目前深度学习技术数据效率低的不足,但仍需要任务相关的标注数据。模型愈大,对标注量要求愈大。如何进一步高效协同利用有标数据和无标数据,是实现数据高效的一个挑战。5. 多模态具身智能,是探索AGI的重要内容。ChatGPT仅限于文本输入输出,其所犯的许多错误也说明了它对语义、知识和因果推理的严重缺乏。单词的意义似乎在于它们在统计学上的共现性,而非现实世界的基础。所以即使未来的语言模型越来越大,它们在一些基本的物理常识方面还是表现不佳。智力远不止语言能力,生物智能的基本要素在于动物与世界进行感觉运动交互的能力[20]。未来的智能机器不一定具有人形,但是机器在听、说、读、写、思考、操纵物体、行动等若干方面,通过具身与环境进行多模态互动,将极大促进机器智能的发展,也将助力机器智能超越文本单一模态局限,更好地帮助人类。总结:从语言学看,语言知识包括单词的结构和特性——形态学(morphology)和词汇(lexicon),单词如何构成短语和句子——句法学(syntax),词素、单词、短语、句子和语篇的意义——语义学(semantics)[21]。ChatGPT通过超大模型,学习到了相当的语言知识(特别是语义层次之下的知识),具备一定的语言理解能力,生成通顺的句子,但是也存在明显的不足:
- ChatGPT会随机编造,在知识建模及利用上存在明显不足。
- ChatGPT在多轮对话交互上存在明显不足,缺乏规划能力。
- ChatGPT行为不可控(uncontrollable)。
- ChatGPT效率(efficiency)不足。
- 多模态具身智能,是探索AGI的重要内容。
针对这些不足,我们梳理了从ChatGPT往未来看,迈向通用人工智能(AGI)所面临的若干挑战,如图8所示,也指出若干重要的研究内容。值得指出的是,各块研究的范畴并不是孤立的,而是彼此有交集。比如,在可信赖和可控研究中,希望系统输出符合社会规范,那么在系统的效用中如何体现这种社会规范,从而系统规划的输出,能够符合社会规范。因此,系统可控的研究与提高系统规划能力的研究,是有交集的。又比如,在系统的规划决策中,如何融合知识?图8:迈向AGI的挑战
04 结束语
ChatGPT是人工智能研究中的一个重要事件,严谨认识其进步,不足及迈向AGI的未来挑战,非常重要。我们相信,求真务实,不断创新,推动人工智能发展到一个新的高度未来可期,欢迎大家多探讨指正,谢谢!参考资料:
- Bengio, et al, "Advances in Optimizing Recurrent Networks", ICASSP 2013.
- Hochreiter and Schmidhuber, "Long short-term memory", Neural Computation, 1997.
- Vaswani, et al, "Attention is All you Need", NeurIPS 2017.
- Radford, et al, "Improving language understanding by generative pre-training", 2018.
- Devlin, et al, "BERT: Pre-training of deep bidirectional transformers for language understanding", ACL 2019.
- Radford, et al, "Language models are unsupervised multitask learners", OpenAI Blog, 2019.
- Brown, et al, "Language Models are Few-Shot Learners", NeurIPS 2020.
- Ouyang, et al, "Training language models to follow instructions with human feedback", arXiv:2203.02155, 2022.
- Schulman, et al, "Proximal policy optimization algorithms", arXiv: 1707.06347, 2017.
- "ChatGPT: Optimizing Language Models for Dialogue", OpenAI Blog, 2022.
- Zhijian Ou, "Energy-Based Models with Applications to Speech and Language Processing", ICASSP 2022 Tutorial.
- Albert Gu, et al, "Efficiently modeling long sequences with structured state spaces", International Conference on Learning Representations (ICLR), 2022.
- Yichi Zhang, et al, "A Probabilistic End-To-End Task-Oriented Dialog Model with Latent Belief States towards Semi-Supervised Learning", EMNLP, 2020.
- Hong Liu, et al, "A Generative User Simulator with GPT-based Architecture and Goal State Tracking for Reinforced Multi-Domain Dialog Systems", EMNLP 2022 SereTOD Workshop.
- Russell & Norvig, "Artificial Intelligence: A Modern Approach", 3rd edition, 2011.
- Suttion & Barto, "Reinforcement learning: an introduction", 2nd edition, 2016.
- Lewis, et al, "Retrieval-Augmented Generation for Knowledge-Intensive NLP tasks", NeurIPS 2020.
- Wei, et al, "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models", NeurIPS 2022.
- Touvron, et al, "LLaMA: Open and Efficient Foundation Language Models", Meta blog, 2023.
- Zador, et al, "Toward Next-Generation Artificial Intelligence: Catalyzing the NeuroAI Revolution", arXiv:2210.08340, 2022.
- Fromkin, et al, "An Introduction to Language", 8th edition, 2007.