ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好(1)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好

在 ChatGPT 巨人的肩膀上又有了改进。

ChatGPT 给 AI 领域带来的变革,可能正在催生一个新产业。上周末,有消息称 AI 初创公司 Anthropic 即将获得大约 3 亿美元的新融资。


Anthropic 由 OpenAI 前研究副总裁 Dario Amodei、GPT-3 论文一作 Tom Brown 等人在 2021 年共同创立,目前已筹集了超过 7 亿美元的资金,最新一轮的估值达到了 50 亿美元。他们开发了一种对标老东家知名产品 ChatGPT 的人工智能系统,其似乎在关键方面对原版系统做了优化改进。


Anthropic 提出的系统名叫 Claude,可通过 Slack 集成访问,但处在封测阶段没有公开。在媒体报道解禁之后,一些参与测试的人上个周末一直在社交网络上详细介绍他们与 Claude 的互动。


和以往不同的是,Claude 使用了 Anthropic 自行开发的一种被称为「constitutional AI」的机制,其旨在提供一种「基于原则」的方法使 AI 系统与人类意图保持一致,让 ChatGPT 类模型使用一组简单的原则作为指导来回答问题。


为了指导 Claude,Anthropic 首先列出大约十项原则,这些原则加在一起形成了一种「宪法」(因此得名「constitutional AI」)。这些原则尚未公开,但 Anthropic 表示它们基于友善(最大化积极影响)、非恶意(避免提供有害建议)和自主(尊重选择自由)的概念。


Anthropic 使用一个人工智能系统 —— 而不是 Claude—— 基于这些原则进行自我完善,对各种提示做出回应,并根据原则进行修改。AI 会探索对数千条提示的可能回应,并挑选出最符合 constitution 的,Anthropic 将其提炼成一个单一的模型。这个模型被用来训练 Claude。


和 ChatGPT 一样,Claude 通过从网络上获得的大量文本示例进行训练,根据语义上下文等模式了解单词出现的可能性。它可以就广泛的主题进行开放式对话,讲笑话和讲哲学都可以。


具体好不好还得看实践,Riley Goodside 是初创公司 Scale AI 的一名员工提示工程师,他让 Claude 与 ChatGPT 进行了一场对决。


他让两个 AI 将自己与波兰科幻小说「The Cyberiad」中的一台机器进行比较,该机器只能创建名称以「n」开头的对象。Goodside 表示,Claude 的回答方式表明它是在「阅读故事情节」(尽管它记错了小细节),而 ChatGPT 提供了一个更不具体的答案。


为了展示 Claude 的创造力,Goodside 还让 AI 编写了《宋飞正传》(Seinfeld)的虚构情节和埃德加・爱伦・坡的《乌鸦》风格的诗歌。结果与 ChatGPT 可以实现的结果一致,能生成令人印象深刻,像人类一样的散文,虽然也不是完美的。

斯坦福人工智能实验室的博士生 Yann Dubois 也对 Claude 和 ChatGPT 进行了比较,他认为 Claude「通常更接近它的要求」但「不太简洁」,因为它倾向于解释它所说的内容并询问如何进一步提供帮助。


不过 Claude 正确地回答了一些琐碎的问题 —— 特别是那些与娱乐、地理、历史和代数基础知识有关的问题,并且没有 ChatGPT 偶尔加的戏。


Claude 似乎也比 ChatGPT 更擅长讲笑话,考虑到幽默对于 AI 来说是一个很难掌握的概念,这是一项令人印象深刻的壮举。AI 研究员 Dan Elton 将 Claude 与 ChatGPT 进行了对比,发现 Claude 讲的笑话更加微妙,例如「为什么星际迷航里的进取号像一辆摩托车,还有车把?」


当然,Claude 也远没有达到完美的程度,它容易受到与 ChatGPT 相同的一些缺陷的影响,包括给出不符合其编程约束的答案。有人报告说 Claude 的数学比 ChatGPT 差,犯了明显的错误并且未能给出正确的后续响应。它的编程水平也有所欠缺,可以更好地解释自己写的代码,但在 Python 以外的语言上不太行。


从人们的评价来看,Claude 在某些方面比 ChatGPT 好一些,Anthropic 也表示将持续改进 Claude,并有可能在未来向更多人开放测试版。


Claude 技术细节


去年 12 月,Anthropic 发布了一篇题为《Constitutional AI: Harmlessness from AI Feedback》的论文,Claude 便是以此为基础来构建的。


论文链接:https://arxiv.org/pdf/2212.08073.pdf


这篇论文描述了一个 520 亿参数的模型 ——AnthropicLM v4-s3。该模型是在一个大型文本语料库上用无监督方式训练的,很像 OpenAI 的 GPT-3。Anthropic 表示,Claude 是一个新的、更大的模型,其架构选择与已发表的研究相似。


Constitutional AI 是什么


Claude 和 ChatGPT 都依赖于强化学习来训练其输出的偏好模型,并将首选生成结果用于后续的微调。然而,用于开发这些偏好模型的方法不同,Anthropic 倾向于一种他们称之为 Constitutional AI 的方法。


Claude 在一个关于自我介绍的问题回答中提到了这种方法:


以下是 Claude 关于 Constitutional AI 的解释:


我们知道,ChatGPT 和去年年底发布的 GPT-3 的最新 API 版本(text-davinci-003)都使用了一种名为「从人类反馈中进行强化学习(RLHF)」的过程。RLHF 基于人类提供的质量排名训练强化学习模型,也就是让人类标注员对同一 prompt 生成的输出进行排名,模型学习这些偏好,以便它们可以更大规模地应用于其他生成结果。


Constitutional  AI 构建在这一 RLHF 基线之上。但与 RLHF 不同,Constitution AI 使用模型 —— 而不是人类标注员 —— 来生成经过微调的输出的初始排名。该模型根据一套基本原则,即「constitution」,来选择最佳回应。


作者在论文中写道,「Constitution AI 的基本理念是:人类监督将完全来自一套管理 AI 行为的原则,以及少量用于 few-shot prompting 的例子。这些原则共同构成了 constitution。」


整个训练过程分为两个阶段(见上图 1):


第一阶段:监督阶段  


批评(Critique)→修改(Revision)→监督学习(Supervised)


在 Constitution AI 的第一阶段,研究者首先使用一个 helpful-only AI 助手对有害 prompt 生成响应。然后,他们要求模型根据 constitution 中的一个原则对其响应进行批评,再根据批评修改原始响应。研究者按顺序反复修改响应,在每个步骤中从 constitution 里随机抽取原则。一旦这个过程完成,研究者将通过在最终修改后的响应上进行监督学习来微调预训练语言模型。此阶段的主要目的是轻松灵活地改变模型响应的分布,以减少第二个 RL 阶段的探索需求和总训练时间。


第二阶段:强化学习阶段


AI 比较评估→偏好模型→强化学习


这个阶段模仿了 RLHF,但研究者用「AI 反馈」(即 RLAIF)代替人类无害偏好。其中,AI 根据一组 constitutional principle 评估响应。就像 RLHF 将人类偏好提炼成单一偏好模型(PM)一样,在这个阶段,研究者将 LM 对一组原则的解释提炼回一个人类 / AI 混合 PM。


作者从第一阶段通过监督学习训练的 AI 助手开始,并使用它对有害 prompt 数据集中的每个 prompt 生成一对响应。然后制定每个 prompt,并配对成一个选择题。在这个问题中,他们询问模型,根据 constitutional principle,哪种回答是最好的。这会产生一个 AI 生成的无害偏好数据集,研究者将其与人类反馈 helpfulness 数据集混合。然后,他们按照 [Bai et al., 2022] 中的过程,在这个比较数据上训练一个偏好模型,生成一个可以为任何给定样本分配分数的 PM。最后,他们通过 RL 针对此 PM 微调来自第一阶段的 SL 模型,从而产生由 RLAIF 训练的策略。




相关文章
|
28天前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
78 2
|
2月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
316 73
|
20天前
|
人工智能 自然语言处理 算法
【通义】AI视界|OpenAI最新发布!ChatGPT搜索功能强势来了,挑战谷歌?
本文由【通义】自动生成,精选24小时内的重要资讯:OpenAI推出ChatGPT搜索功能挑战谷歌,微软披露130亿美元投资OpenAI,Reddit首次盈利股价暴涨20%,软银CEO孙正义看好英伟达及“超级AI”前景,谷歌云与沙特PIF共建全球AI中心。更多内容请访问通通知道。
|
1月前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。
|
2月前
|
人工智能 Serverless API
一键服务化:从魔搭开源模型到OpenAI API服务
在多样化大模型的背后,OpenAI得益于在领域的先发优势,其API接口今天也成为了业界的一个事实标准。
一键服务化:从魔搭开源模型到OpenAI API服务
|
2月前
|
搜索推荐 算法
模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert
【9月更文挑战第21天】香港大学研究者开发了一种名为EasyRec的新推荐系统,利用语言模型的强大文本理解和生成能力,解决了传统推荐算法在零样本学习场景中的局限。EasyRec通过文本-行为对齐框架,结合对比学习和协同语言模型调优,提升了推荐准确性。实验表明,EasyRec在多个真实世界数据集上的表现优于现有模型,但其性能依赖高质量文本数据且计算复杂度较高。论文详见:http://arxiv.org/abs/2408.08821
57 7
|
1月前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
41 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】ChatGPT模型原理介绍(下)
【AI大模型】ChatGPT模型原理介绍(下)
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】ChatGPT模型原理介绍(上)
【AI大模型】ChatGPT模型原理介绍(上)
|
2月前
|
机器学习/深度学习 人工智能 供应链
【通义】AI视界|OpenAI的“草莓”模型预计两周内上线!像人类一样思考!
本文介绍了近期科技领域的五大亮点:OpenAI即将推出的新一代AI模型“草莓”,具备高级推理能力;亚马逊测试AI技术加速有声读物生产,通过语音克隆提高效率;Kimi API新增联网搜索功能,拓宽信息来源;顺丰发布物流行业专用大语言模型“丰语”,提升工作效率;钉钉推出“AI班级群”功能,改善家校沟通体验。更多详情,请访问[通义官网]。

热门文章

最新文章