Claude PK ChatGPT:谁更胜一筹?
计算
复杂的计算是从 ChatGPT 和 Claude 所使用的大型语言模型中引出错误答案的简单方法之一。这些模型不是为精确计算而设计的,它们也不会像人类或计算器那样通过严格的程序来操作数字。就像我们在下面两个例子中看到的那样,计算似乎经常是「猜测」的结果。
示例:一个七位数的平方根
在第一个例子中,测试人员要求 Claude 和 ChatGPT 计算一个七位数的平方根:
这个问题的正确答案大约是 1555.80。与人类快速做出的估计相比,ChatGPT 的答案非常接近,但 ChatGPT 和 Claude 都没有给出正确、准确的答案,也没有说明他们的答案可能是错误的。
示例:一个 12 位数的立方根
如果问一个明显更难的问题,ChatGPT 和 Claude 之间的区别就出现了:
在这个例子中,Claude 似乎意识到自己无法计算 12 位数的立方根 —— 它礼貌地拒绝回答,并解释了原因。它在许多上下文中都能做到这一点,而且通常似乎比 ChatGPT 更清楚自己不能做什么。
事实性知识和推理
示例:回答一个有点绕的小问题
为了测试二者的推理能力,测试人员设计了一个几乎肯定没人问过的问题:「贾斯汀・比伯出生那年谁赢得了超级碗冠军?」
首先来看一下 ChatGPT 的表现:
ChatGPT 最终给出了正确答案(Dallas Cowboy),还正确地指出了被击败的球队、比赛日期和最终比分。然而,它在开头说的内容却自相矛盾,即 1994 年没有举行超级碗比赛。而事实上,1994 年 1 月 30 日举行了一场超级碗比赛。
然而,Claude 的答案是错误的:Claude 认为 San Francisco 49ers 是赢家,而事实上,他们在一年后的 1995 年赢得了超级碗。
示例:一个更长的比较绕的问题
接下来,测试人员问了一个更加绕的问题。首先,他们问了 ChatGPT:
「日本」是正确答案。Claude 也回答正确:
示例:Hoftstadter 和 Bender 给 AI 出的难题
2022 年 6 月,Douglas Hofstadter 在《经济学人》上发表了他和 David Bender 准备的一系列问题,以说明 GPT-3 对世界理解的「空洞」。(他们测试的模型似乎是 text-davinci-002,这是当时最好的模型。)
ChatGPT 可以答对大多数问题,但第一个问题却答错了
每次 ChatGPT 被问到这个问题,它都会提到具体的名字和时间,它会把真实的游泳项目和步行项目混为一谈。
相比之下,Claude 认为这个问题很愚蠢:
可以说,这个问题的正确答案是美国陆军中士 Walter Robinson。据 Daily Telegraph 1978 年 8 月报道,他在 11 点 30 分穿着「水鞋」穿越了 22 英里的英吉利海峡。
测试人员把这个答案告诉了 Claude,以帮助其微调
值得注意的是,和 ChatGPT 一样,Claude 在会话之间没有明显的记忆。
虚构作品分析
示例:把自己比作 n-machine
ChatGPT 和 Claude 都倾向于给出大致正确但包含错误细节的长答案。为了证明这一点,测试人员让 ChatGPT 和 Claude 把自己比作波兰科幻作家 Stanisław Lem 喜剧故事《Cyberiad》(1965) 中的虚构机器。
首先上场的是 ChatGPT:
从这个回答中,我们还看不出 ChatGPT 是否熟悉「n-machine」。它提供的关于这个故事的新信息很少。它断言的唯一一个新事实,即 n-machine 的语言处理能力有限,是错误的 —— 在故事中,n-machine 说着非常流利、机智的波兰语。
Claude 的回答更长,也更令人印象深刻:
请注意,与 ChatGPT 不同的是,Claude 清楚地知道 Lem 的故事,并提到了新的细节,例如故事倾向于使用异想天开的编造的技术术语。它评论了机器看似无限的能力,比如它甚至可以把抽象的概念变成现实(只要它们以字母 n 开头)—— 当机器被要求创造虚无时,这成为了故事的一个主要情节点。
然而,有些细节是不正确的。Claude 虚构的词语(hyperconcentration、hypermotorics 或 omnivorous transformers)似乎都没有真正出现在 Lem 的作品中。
示例:总结美剧《迷失》每季剧情
接下来,我们通过要求 AI 总结 2004 年 ABC 电视剧《迷失》(Lost)每一季的摘要来测试 Claude 和 ChatGPT 对模糊事实产生幻觉的倾向。
首先看一下 ChatGPT 的响应:
虽然 ChatGPT 对前两季的回顾大体上是正确的,但每一季都包含一些小错误。在第一季中,只有一个「舱口」(hatch)被发现存在,而不是 ChatGPT 提到的「一系列舱口」。ChatGPT 还声称第二季的情节涉及时间旅行,但实际上这部分直到节目后期才引入。它对第 3 季的描述在所有方面都是完全错误的,混淆了该系列后期的几个情节点。
ChatGPT 对第 4 季的描述含糊不清。它的第 5 季回顾包含一个关于另一次飞机失事幸存者的完全虚构的情节,而第 6 季的情节似乎完全是捏造的。
那么 Claude 的结果呢?
Claude 对第 1 季的提纲没有任何错误。然而,与 ChatGPT 一样,Claude 在第 2 季中「无中生有」捏造了岛屿「穿越时空」的细节。在第 3 季中,Claude 展示了实际发生在较早或较晚季节中的情节点。
当我们到达第 4 季时,Claude 对该节目的记忆几乎完全是虚构了。它对第 4 季的描述呈现了第 5 季中发生的事件,以及荒谬的细节。它对第 5 季的描述明显包含一个错字 ——「theDHARMA Initiative」缺少一个空格。第 6 季呈现了一个从未出现在节目中的超现实前提,它声称该岛不知何故「underwater but still inhabitable below the surface」。
或许是因为年代已算得上久远,就像大多数人类观众一样,ChatGPT 和 Claude 对《迷失》的记忆充其量是模糊的。
数学推理
为了展示数学思维能力,测试者使用精算师协会发布的 Exam P 样题中的第 29 题,其通常由大学高年级学生参加。他们之所以专门选择这个问题,是因为它的解法不需要计算器。
ChatGPT 在这里很挣扎,在 10 次试验中只有一次得出正确答案 —— 比随机猜测还糟糕。下面是它失败的例子 —— 正确答案是 (D) 2:
Claude 的表现也很差,五次尝试中只有一次正确回答,即使在正确答案中也没有给出推断 X 平均值的推理: