在 ChatGPT 巨人的肩膀上又有了改进。
ChatGPT 给 AI 领域带来的变革,可能正在催生一个新产业。上周末,有消息称 AI 初创公司 Anthropic 即将获得大约 3 亿美元的新融资。
Anthropic 由 OpenAI 前研究副总裁 Dario Amodei、GPT-3 论文一作 Tom Brown 等人在 2021 年共同创立,目前已筹集了超过 7 亿美元的资金,最新一轮的估值达到了 50 亿美元。他们开发了一种对标老东家知名产品 ChatGPT 的人工智能系统,其似乎在关键方面对原版系统做了优化改进。
Anthropic 提出的系统名叫 Claude,可通过 Slack 集成访问,但处在封测阶段没有公开。在媒体报道解禁之后,一些参与测试的人上个周末一直在社交网络上详细介绍他们与 Claude 的互动。
和以往不同的是,Claude 使用了 Anthropic 自行开发的一种被称为「constitutional AI」的机制,其旨在提供一种「基于原则」的方法使 AI 系统与人类意图保持一致,让 ChatGPT 类模型使用一组简单的原则作为指导来回答问题。
为了指导 Claude,Anthropic 首先列出大约十项原则,这些原则加在一起形成了一种「宪法」(因此得名「constitutional AI」)。这些原则尚未公开,但 Anthropic 表示它们基于友善(最大化积极影响)、非恶意(避免提供有害建议)和自主(尊重选择自由)的概念。
Anthropic 使用一个人工智能系统 —— 而不是 Claude—— 基于这些原则进行自我完善,对各种提示做出回应,并根据原则进行修改。AI 会探索对数千条提示的可能回应,并挑选出最符合 constitution 的,Anthropic 将其提炼成一个单一的模型。这个模型被用来训练 Claude。
和 ChatGPT 一样,Claude 通过从网络上获得的大量文本示例进行训练,根据语义上下文等模式了解单词出现的可能性。它可以就广泛的主题进行开放式对话,讲笑话和讲哲学都可以。
具体好不好还得看实践,Riley Goodside 是初创公司 Scale AI 的一名员工提示工程师,他让 Claude 与 ChatGPT 进行了一场对决。
他让两个 AI 将自己与波兰科幻小说「The Cyberiad」中的一台机器进行比较,该机器只能创建名称以「n」开头的对象。Goodside 表示,Claude 的回答方式表明它是在「阅读故事情节」(尽管它记错了小细节),而 ChatGPT 提供了一个更不具体的答案。
为了展示 Claude 的创造力,Goodside 还让 AI 编写了《宋飞正传》(Seinfeld)的虚构情节和埃德加・爱伦・坡的《乌鸦》风格的诗歌。结果与 ChatGPT 可以实现的结果一致,能生成令人印象深刻,像人类一样的散文,虽然也不是完美的。
斯坦福人工智能实验室的博士生 Yann Dubois 也对 Claude 和 ChatGPT 进行了比较,他认为 Claude「通常更接近它的要求」但「不太简洁」,因为它倾向于解释它所说的内容并询问如何进一步提供帮助。
不过 Claude 正确地回答了一些琐碎的问题 —— 特别是那些与娱乐、地理、历史和代数基础知识有关的问题,并且没有 ChatGPT 偶尔加的戏。
Claude 似乎也比 ChatGPT 更擅长讲笑话,考虑到幽默对于 AI 来说是一个很难掌握的概念,这是一项令人印象深刻的壮举。AI 研究员 Dan Elton 将 Claude 与 ChatGPT 进行了对比,发现 Claude 讲的笑话更加微妙,例如「为什么星际迷航里的进取号像一辆摩托车,还有车把?」
当然,Claude 也远没有达到完美的程度,它容易受到与 ChatGPT 相同的一些缺陷的影响,包括给出不符合其编程约束的答案。有人报告说 Claude 的数学比 ChatGPT 差,犯了明显的错误并且未能给出正确的后续响应。它的编程水平也有所欠缺,可以更好地解释自己写的代码,但在 Python 以外的语言上不太行。
从人们的评价来看,Claude 在某些方面比 ChatGPT 好一些,Anthropic 也表示将持续改进 Claude,并有可能在未来向更多人开放测试版。
Claude 技术细节
去年 12 月,Anthropic 发布了一篇题为《Constitutional AI: Harmlessness from AI Feedback》的论文,Claude 便是以此为基础来构建的。
论文链接:https://arxiv.org/pdf/2212.08073.pdf
这篇论文描述了一个 520 亿参数的模型 ——AnthropicLM v4-s3。该模型是在一个大型文本语料库上用无监督方式训练的,很像 OpenAI 的 GPT-3。Anthropic 表示,Claude 是一个新的、更大的模型,其架构选择与已发表的研究相似。
Constitutional AI 是什么
Claude 和 ChatGPT 都依赖于强化学习来训练其输出的偏好模型,并将首选生成结果用于后续的微调。然而,用于开发这些偏好模型的方法不同,Anthropic 倾向于一种他们称之为 Constitutional AI 的方法。
Claude 在一个关于自我介绍的问题回答中提到了这种方法:
以下是 Claude 关于 Constitutional AI 的解释:
我们知道,ChatGPT 和去年年底发布的 GPT-3 的最新 API 版本(text-davinci-003)都使用了一种名为「从人类反馈中进行强化学习(RLHF)」的过程。RLHF 基于人类提供的质量排名训练强化学习模型,也就是让人类标注员对同一 prompt 生成的输出进行排名,模型学习这些偏好,以便它们可以更大规模地应用于其他生成结果。
Constitutional AI 构建在这一 RLHF 基线之上。但与 RLHF 不同,Constitution AI 使用模型 —— 而不是人类标注员 —— 来生成经过微调的输出的初始排名。该模型根据一套基本原则,即「constitution」,来选择最佳回应。
作者在论文中写道,「Constitution AI 的基本理念是:人类监督将完全来自一套管理 AI 行为的原则,以及少量用于 few-shot prompting 的例子。这些原则共同构成了 constitution。」
整个训练过程分为两个阶段(见上图 1):
第一阶段:监督阶段
批评(Critique)→修改(Revision)→监督学习(Supervised)
在 Constitution AI 的第一阶段,研究者首先使用一个 helpful-only AI 助手对有害 prompt 生成响应。然后,他们要求模型根据 constitution 中的一个原则对其响应进行批评,再根据批评修改原始响应。研究者按顺序反复修改响应,在每个步骤中从 constitution 里随机抽取原则。一旦这个过程完成,研究者将通过在最终修改后的响应上进行监督学习来微调预训练语言模型。此阶段的主要目的是轻松灵活地改变模型响应的分布,以减少第二个 RL 阶段的探索需求和总训练时间。
第二阶段:强化学习阶段
AI 比较评估→偏好模型→强化学习
这个阶段模仿了 RLHF,但研究者用「AI 反馈」(即 RLAIF)代替人类无害偏好。其中,AI 根据一组 constitutional principle 评估响应。就像 RLHF 将人类偏好提炼成单一偏好模型(PM)一样,在这个阶段,研究者将 LM 对一组原则的解释提炼回一个人类 / AI 混合 PM。
作者从第一阶段通过监督学习训练的 AI 助手开始,并使用它对有害 prompt 数据集中的每个 prompt 生成一对响应。然后制定每个 prompt,并配对成一个选择题。在这个问题中,他们询问模型,根据 constitutional principle,哪种回答是最好的。这会产生一个 AI 生成的无害偏好数据集,研究者将其与人类反馈 helpfulness 数据集混合。然后,他们按照 [Bai et al., 2022] 中的过程,在这个比较数据上训练一个偏好模型,生成一个可以为任何给定样本分配分数的 PM。最后,他们通过 RL 针对此 PM 微调来自第一阶段的 SL 模型,从而产生由 RLAIF 训练的策略。