ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好(1)

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好

在 ChatGPT 巨人的肩膀上又有了改进。

ChatGPT 给 AI 领域带来的变革,可能正在催生一个新产业。上周末,有消息称 AI 初创公司 Anthropic 即将获得大约 3 亿美元的新融资。


Anthropic 由 OpenAI 前研究副总裁 Dario Amodei、GPT-3 论文一作 Tom Brown 等人在 2021 年共同创立,目前已筹集了超过 7 亿美元的资金,最新一轮的估值达到了 50 亿美元。他们开发了一种对标老东家知名产品 ChatGPT 的人工智能系统,其似乎在关键方面对原版系统做了优化改进。


Anthropic 提出的系统名叫 Claude,可通过 Slack 集成访问,但处在封测阶段没有公开。在媒体报道解禁之后,一些参与测试的人上个周末一直在社交网络上详细介绍他们与 Claude 的互动。


和以往不同的是,Claude 使用了 Anthropic 自行开发的一种被称为「constitutional AI」的机制,其旨在提供一种「基于原则」的方法使 AI 系统与人类意图保持一致,让 ChatGPT 类模型使用一组简单的原则作为指导来回答问题。


为了指导 Claude,Anthropic 首先列出大约十项原则,这些原则加在一起形成了一种「宪法」(因此得名「constitutional AI」)。这些原则尚未公开,但 Anthropic 表示它们基于友善(最大化积极影响)、非恶意(避免提供有害建议)和自主(尊重选择自由)的概念。


Anthropic 使用一个人工智能系统 —— 而不是 Claude—— 基于这些原则进行自我完善,对各种提示做出回应,并根据原则进行修改。AI 会探索对数千条提示的可能回应,并挑选出最符合 constitution 的,Anthropic 将其提炼成一个单一的模型。这个模型被用来训练 Claude。


和 ChatGPT 一样,Claude 通过从网络上获得的大量文本示例进行训练,根据语义上下文等模式了解单词出现的可能性。它可以就广泛的主题进行开放式对话,讲笑话和讲哲学都可以。


具体好不好还得看实践,Riley Goodside 是初创公司 Scale AI 的一名员工提示工程师,他让 Claude 与 ChatGPT 进行了一场对决。


他让两个 AI 将自己与波兰科幻小说「The Cyberiad」中的一台机器进行比较,该机器只能创建名称以「n」开头的对象。Goodside 表示,Claude 的回答方式表明它是在「阅读故事情节」(尽管它记错了小细节),而 ChatGPT 提供了一个更不具体的答案。


为了展示 Claude 的创造力,Goodside 还让 AI 编写了《宋飞正传》(Seinfeld)的虚构情节和埃德加・爱伦・坡的《乌鸦》风格的诗歌。结果与 ChatGPT 可以实现的结果一致,能生成令人印象深刻,像人类一样的散文,虽然也不是完美的。

斯坦福人工智能实验室的博士生 Yann Dubois 也对 Claude 和 ChatGPT 进行了比较,他认为 Claude「通常更接近它的要求」但「不太简洁」,因为它倾向于解释它所说的内容并询问如何进一步提供帮助。


不过 Claude 正确地回答了一些琐碎的问题 —— 特别是那些与娱乐、地理、历史和代数基础知识有关的问题,并且没有 ChatGPT 偶尔加的戏。


Claude 似乎也比 ChatGPT 更擅长讲笑话,考虑到幽默对于 AI 来说是一个很难掌握的概念,这是一项令人印象深刻的壮举。AI 研究员 Dan Elton 将 Claude 与 ChatGPT 进行了对比,发现 Claude 讲的笑话更加微妙,例如「为什么星际迷航里的进取号像一辆摩托车,还有车把?」


当然,Claude 也远没有达到完美的程度,它容易受到与 ChatGPT 相同的一些缺陷的影响,包括给出不符合其编程约束的答案。有人报告说 Claude 的数学比 ChatGPT 差,犯了明显的错误并且未能给出正确的后续响应。它的编程水平也有所欠缺,可以更好地解释自己写的代码,但在 Python 以外的语言上不太行。


从人们的评价来看,Claude 在某些方面比 ChatGPT 好一些,Anthropic 也表示将持续改进 Claude,并有可能在未来向更多人开放测试版。


Claude 技术细节


去年 12 月,Anthropic 发布了一篇题为《Constitutional AI: Harmlessness from AI Feedback》的论文,Claude 便是以此为基础来构建的。


论文链接:https://arxiv.org/pdf/2212.08073.pdf


这篇论文描述了一个 520 亿参数的模型 ——AnthropicLM v4-s3。该模型是在一个大型文本语料库上用无监督方式训练的,很像 OpenAI 的 GPT-3。Anthropic 表示,Claude 是一个新的、更大的模型,其架构选择与已发表的研究相似。


Constitutional AI 是什么


Claude 和 ChatGPT 都依赖于强化学习来训练其输出的偏好模型,并将首选生成结果用于后续的微调。然而,用于开发这些偏好模型的方法不同,Anthropic 倾向于一种他们称之为 Constitutional AI 的方法。


Claude 在一个关于自我介绍的问题回答中提到了这种方法:


以下是 Claude 关于 Constitutional AI 的解释:


我们知道,ChatGPT 和去年年底发布的 GPT-3 的最新 API 版本(text-davinci-003)都使用了一种名为「从人类反馈中进行强化学习(RLHF)」的过程。RLHF 基于人类提供的质量排名训练强化学习模型,也就是让人类标注员对同一 prompt 生成的输出进行排名,模型学习这些偏好,以便它们可以更大规模地应用于其他生成结果。


Constitutional  AI 构建在这一 RLHF 基线之上。但与 RLHF 不同,Constitution AI 使用模型 —— 而不是人类标注员 —— 来生成经过微调的输出的初始排名。该模型根据一套基本原则,即「constitution」,来选择最佳回应。


作者在论文中写道,「Constitution AI 的基本理念是:人类监督将完全来自一套管理 AI 行为的原则,以及少量用于 few-shot prompting 的例子。这些原则共同构成了 constitution。」


整个训练过程分为两个阶段(见上图 1):


第一阶段:监督阶段  


批评(Critique)→修改(Revision)→监督学习(Supervised)


在 Constitution AI 的第一阶段,研究者首先使用一个 helpful-only AI 助手对有害 prompt 生成响应。然后,他们要求模型根据 constitution 中的一个原则对其响应进行批评,再根据批评修改原始响应。研究者按顺序反复修改响应,在每个步骤中从 constitution 里随机抽取原则。一旦这个过程完成,研究者将通过在最终修改后的响应上进行监督学习来微调预训练语言模型。此阶段的主要目的是轻松灵活地改变模型响应的分布,以减少第二个 RL 阶段的探索需求和总训练时间。


第二阶段:强化学习阶段


AI 比较评估→偏好模型→强化学习


这个阶段模仿了 RLHF,但研究者用「AI 反馈」(即 RLAIF)代替人类无害偏好。其中,AI 根据一组 constitutional principle 评估响应。就像 RLHF 将人类偏好提炼成单一偏好模型(PM)一样,在这个阶段,研究者将 LM 对一组原则的解释提炼回一个人类 / AI 混合 PM。


作者从第一阶段通过监督学习训练的 AI 助手开始,并使用它对有害 prompt 数据集中的每个 prompt 生成一对响应。然后制定每个 prompt,并配对成一个选择题。在这个问题中,他们询问模型,根据 constitutional principle,哪种回答是最好的。这会产生一个 AI 生成的无害偏好数据集,研究者将其与人类反馈 helpfulness 数据集混合。然后,他们按照 [Bai et al., 2022] 中的过程,在这个比较数据上训练一个偏好模型,生成一个可以为任何给定样本分配分数的 PM。最后,他们通过 RL 针对此 PM 微调来自第一阶段的 SL 模型,从而产生由 RLAIF 训练的策略。




相关文章
|
5天前
|
人工智能 测试技术 API
MatGPT - 访问 OpenAI™ ChatGPT API 的 MATLAB® 应用程序
MatGPT - 访问 OpenAI™ ChatGPT API 的 MATLAB® 应用程序
14 0
|
2天前
|
人工智能 监控 数据挖掘
普华永道和OpenAI达成合作协议,成为首个ChatGPT Enterprise的转售商
普华永道和OpenAI达成合作协议,成为首个ChatGPT Enterprise的转售商
普华永道和OpenAI达成合作协议,成为首个ChatGPT Enterprise的转售商
|
4天前
|
人工智能 开发者 芯片
【51单片机】单片机开发者的福音: 让AI看电路图帮你编写程序(使用ChatGPT 中训练好的单片机工程师模型)
使用AI大语言模型编写 单片机程序. 使用的是 OpenAI公司发布的 ChatGPT .在ChatGPT上有别人训练好的 单片机工程师 with Keil uVision 5 - C Code Explainer模型, 可以上传电路图改模型可以通过这个用户所给的电路图进行编程.
【51单片机】单片机开发者的福音: 让AI看电路图帮你编写程序(使用ChatGPT 中训练好的单片机工程师模型)
|
5天前
|
编解码 自然语言处理 计算机视觉
OpenAI 生成视频模型 Sora 论文翻译
OpenAI 生成视频模型 Sora 论文翻译
9 1
|
11天前
|
人工智能 自然语言处理 程序员
使用 go-openai 轻松调用 chatGPT:释放无限创造力!
使用 go-openai 轻松调用 chatGPT:释放无限创造力!
|
2月前
|
机器学习/深度学习 人工智能 算法
OpenAI发布全新AI视频模型Sora:引领视频创作新纪元
OpenAI发布全新AI视频模型Sora:引领视频创作新纪元
|
2月前
|
API 异构计算
开源模型破局OpenAI服务限制,15分钟灵活搭建RAG和Agent应用
今天,我们做了两个实验,目标在15分钟内,完成下载社区的开源模型,部署成API,替换LlamaIndex中RAG和LangChain中OpenAI接口Agent的最佳实践,并取得符合预期的结果。
|
2月前
|
机器学习/深度学习 缓存 自然语言处理
采用ChatGPT大模型高效精准文档翻译
这款文档翻译工具支持PDF、Word、PPT、Excel和TXT等多种格式,利用ChatGPT大模型进行高效精准的翻译,覆盖30多种语言。它通过文档解析、预处理、翻译和结果合成步骤工作,并采用缓存、并行处理和负载均衡技术优化性能。该工具满足全球化背景下企业和个人的多语言需求,助力信息交流。
119 0
采用ChatGPT大模型高效精准文档翻译
|
2月前
|
人工智能 安全 机器人
Claude3发布成为大模型之王,Openai是否真的跌落神坛,附试用链接
Claude3发布成为大模型之王,Openai是否真的跌落神坛,附试用链接
32 3
|
2月前
|
人工智能 机器人 API
OpenAI发布新AI模型GPT-4o和桌面版ChatGPT
OpenAI发布新AI模型GPT-4o和桌面版ChatGPT