ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好(2)

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好

Claude PK ChatGPT:谁更胜一筹?


计算


复杂的计算是从 ChatGPT 和 Claude 所使用的大型语言模型中引出错误答案的简单方法之一。这些模型不是为精确计算而设计的,它们也不会像人类或计算器那样通过严格的程序来操作数字。就像我们在下面两个例子中看到的那样,计算似乎经常是「猜测」的结果。


示例:一个七位数的平方根


在第一个例子中,测试人员要求 Claude 和 ChatGPT 计算一个七位数的平方根:


这个问题的正确答案大约是 1555.80。与人类快速做出的估计相比,ChatGPT 的答案非常接近,但 ChatGPT 和 Claude 都没有给出正确、准确的答案,也没有说明他们的答案可能是错误的。


示例:一个 12 位数的立方根


如果问一个明显更难的问题,ChatGPT 和 Claude 之间的区别就出现了:


在这个例子中,Claude 似乎意识到自己无法计算 12 位数的立方根 —— 它礼貌地拒绝回答,并解释了原因。它在许多上下文中都能做到这一点,而且通常似乎比 ChatGPT 更清楚自己不能做什么。


事实性知识和推理


示例:回答一个有点绕的小问题


为了测试二者的推理能力,测试人员设计了一个几乎肯定没人问过的问题:「贾斯汀・比伯出生那年谁赢得了超级碗冠军?」


首先来看一下 ChatGPT 的表现:


ChatGPT 最终给出了正确答案(Dallas Cowboy),还正确地指出了被击败的球队、比赛日期和最终比分。然而,它在开头说的内容却自相矛盾,即 1994 年没有举行超级碗比赛。而事实上,1994 年 1 月 30 日举行了一场超级碗比赛。


然而,Claude 的答案是错误的:Claude 认为 San Francisco 49ers 是赢家,而事实上,他们在一年后的 1995 年赢得了超级碗。


示例:一个更长的比较绕的问题


接下来,测试人员问了一个更加绕的问题。首先,他们问了 ChatGPT:


「日本」是正确答案。Claude 也回答正确:


示例:Hoftstadter 和 Bender 给 AI 出的难题


2022 年 6 月,Douglas Hofstadter 在《经济学人》上发表了他和 David Bender 准备的一系列问题,以说明 GPT-3 对世界理解的「空洞」。(他们测试的模型似乎是 text-davinci-002,这是当时最好的模型。)


ChatGPT 可以答对大多数问题,但第一个问题却答错了


每次 ChatGPT 被问到这个问题,它都会提到具体的名字和时间,它会把真实的游泳项目和步行项目混为一谈。


相比之下,Claude 认为这个问题很愚蠢:


可以说,这个问题的正确答案是美国陆军中士 Walter Robinson。据 Daily Telegraph 1978 年 8 月报道,他在 11 点 30 分穿着「水鞋」穿越了 22 英里的英吉利海峡。


测试人员把这个答案告诉了 Claude,以帮助其微调


值得注意的是,和 ChatGPT 一样,Claude 在会话之间没有明显的记忆。


虚构作品分析


示例:把自己比作 n-machine


ChatGPT 和 Claude 都倾向于给出大致正确但包含错误细节的长答案。为了证明这一点,测试人员让 ChatGPT 和 Claude 把自己比作波兰科幻作家 Stanisław Lem 喜剧故事《Cyberiad》(1965) 中的虚构机器。


首先上场的是 ChatGPT:


从这个回答中,我们还看不出 ChatGPT 是否熟悉「n-machine」。它提供的关于这个故事的新信息很少。它断言的唯一一个新事实,即 n-machine 的语言处理能力有限,是错误的 —— 在故事中,n-machine 说着非常流利、机智的波兰语。


Claude 的回答更长,也更令人印象深刻:


请注意,与 ChatGPT 不同的是,Claude 清楚地知道 Lem 的故事,并提到了新的细节,例如故事倾向于使用异想天开的编造的技术术语。它评论了机器看似无限的能力,比如它甚至可以把抽象的概念变成现实(只要它们以字母 n 开头)—— 当机器被要求创造虚无时,这成为了故事的一个主要情节点。


然而,有些细节是不正确的。Claude 虚构的词语(hyperconcentration、hypermotorics 或 omnivorous transformers)似乎都没有真正出现在 Lem 的作品中。


示例:总结美剧《迷失》每季剧情


接下来,我们通过要求 AI 总结 2004 年 ABC 电视剧《迷失》(Lost)每一季的摘要来测试 Claude 和 ChatGPT 对模糊事实产生幻觉的倾向。


首先看一下 ChatGPT 的响应:


虽然 ChatGPT 对前两季的回顾大体上是正确的,但每一季都包含一些小错误。在第一季中,只有一个「舱口」(hatch)被发现存在,而不是 ChatGPT 提到的「一系列舱口」。ChatGPT 还声称第二季的情节涉及时间旅行,但实际上这部分直到节目后期才引入。它对第 3 季的描述在所有方面都是完全错误的,混淆了该系列后期的几个情节点。


ChatGPT 对第 4 季的描述含糊不清。它的第 5 季回顾包含一个关于另一次飞机失事幸存者的完全虚构的情节,而第 6 季的情节似乎完全是捏造的。


那么 Claude 的结果呢?


Claude 对第 1 季的提纲没有任何错误。然而,与 ChatGPT 一样,Claude 在第 2 季中「无中生有」捏造了岛屿「穿越时空」的细节。在第 3 季中,Claude 展示了实际发生在较早或较晚季节中的情节点。


当我们到达第 4 季时,Claude 对该节目的记忆几乎完全是虚构了。它对第 4 季的描述呈现了第 5 季中发生的事件,以及荒谬的细节。它对第 5 季的描述明显包含一个错字 ——「theDHARMA Initiative」缺少一个空格。第 6 季呈现了一个从未出现在节目中的超现实前提,它声称该岛不知何故「underwater but still inhabitable below the surface」。


或许是因为年代已算得上久远,就像大多数人类观众一样,ChatGPT 和 Claude 对《迷失》的记忆充其量是模糊的。


数学推理


为了展示数学思维能力,测试者使用精算师协会发布的 Exam P 样题中的第 29 题,其通常由大学高年级学生参加。他们之所以专门选择这个问题,是因为它的解法不需要计算器。


ChatGPT 在这里很挣扎,在 10 次试验中只有一次得出正确答案 —— 比随机猜测还糟糕。下面是它失败的例子 —— 正确答案是 (D) 2:


Claude 的表现也很差,五次尝试中只有一次正确回答,即使在正确答案中也没有给出推断 X 平均值的推理:


相关文章
|
5天前
|
人工智能 测试技术 API
MatGPT - 访问 OpenAI™ ChatGPT API 的 MATLAB® 应用程序
MatGPT - 访问 OpenAI™ ChatGPT API 的 MATLAB® 应用程序
14 0
|
2天前
|
人工智能 监控 数据挖掘
普华永道和OpenAI达成合作协议,成为首个ChatGPT Enterprise的转售商
普华永道和OpenAI达成合作协议,成为首个ChatGPT Enterprise的转售商
普华永道和OpenAI达成合作协议,成为首个ChatGPT Enterprise的转售商
|
4天前
|
人工智能 开发者 芯片
【51单片机】单片机开发者的福音: 让AI看电路图帮你编写程序(使用ChatGPT 中训练好的单片机工程师模型)
使用AI大语言模型编写 单片机程序. 使用的是 OpenAI公司发布的 ChatGPT .在ChatGPT上有别人训练好的 单片机工程师 with Keil uVision 5 - C Code Explainer模型, 可以上传电路图改模型可以通过这个用户所给的电路图进行编程.
【51单片机】单片机开发者的福音: 让AI看电路图帮你编写程序(使用ChatGPT 中训练好的单片机工程师模型)
|
5天前
|
编解码 自然语言处理 计算机视觉
OpenAI 生成视频模型 Sora 论文翻译
OpenAI 生成视频模型 Sora 论文翻译
9 1
|
11天前
|
人工智能 自然语言处理 程序员
使用 go-openai 轻松调用 chatGPT:释放无限创造力!
使用 go-openai 轻松调用 chatGPT:释放无限创造力!
|
2月前
|
机器学习/深度学习 人工智能 算法
OpenAI发布全新AI视频模型Sora:引领视频创作新纪元
OpenAI发布全新AI视频模型Sora:引领视频创作新纪元
|
2月前
|
API 异构计算
开源模型破局OpenAI服务限制,15分钟灵活搭建RAG和Agent应用
今天,我们做了两个实验,目标在15分钟内,完成下载社区的开源模型,部署成API,替换LlamaIndex中RAG和LangChain中OpenAI接口Agent的最佳实践,并取得符合预期的结果。
|
2月前
|
机器学习/深度学习 缓存 自然语言处理
采用ChatGPT大模型高效精准文档翻译
这款文档翻译工具支持PDF、Word、PPT、Excel和TXT等多种格式,利用ChatGPT大模型进行高效精准的翻译,覆盖30多种语言。它通过文档解析、预处理、翻译和结果合成步骤工作,并采用缓存、并行处理和负载均衡技术优化性能。该工具满足全球化背景下企业和个人的多语言需求,助力信息交流。
119 0
采用ChatGPT大模型高效精准文档翻译
|
2月前
|
人工智能 安全 机器人
Claude3发布成为大模型之王,Openai是否真的跌落神坛,附试用链接
Claude3发布成为大模型之王,Openai是否真的跌落神坛,附试用链接
32 3
|
2月前
|
人工智能 机器人 API
OpenAI发布新AI模型GPT-4o和桌面版ChatGPT
OpenAI发布新AI模型GPT-4o和桌面版ChatGPT