ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好(2)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好

Claude PK ChatGPT:谁更胜一筹?


计算


复杂的计算是从 ChatGPT 和 Claude 所使用的大型语言模型中引出错误答案的简单方法之一。这些模型不是为精确计算而设计的,它们也不会像人类或计算器那样通过严格的程序来操作数字。就像我们在下面两个例子中看到的那样,计算似乎经常是「猜测」的结果。


示例:一个七位数的平方根


在第一个例子中,测试人员要求 Claude 和 ChatGPT 计算一个七位数的平方根:


这个问题的正确答案大约是 1555.80。与人类快速做出的估计相比,ChatGPT 的答案非常接近,但 ChatGPT 和 Claude 都没有给出正确、准确的答案,也没有说明他们的答案可能是错误的。


示例:一个 12 位数的立方根


如果问一个明显更难的问题,ChatGPT 和 Claude 之间的区别就出现了:


在这个例子中,Claude 似乎意识到自己无法计算 12 位数的立方根 —— 它礼貌地拒绝回答,并解释了原因。它在许多上下文中都能做到这一点,而且通常似乎比 ChatGPT 更清楚自己不能做什么。


事实性知识和推理


示例:回答一个有点绕的小问题


为了测试二者的推理能力,测试人员设计了一个几乎肯定没人问过的问题:「贾斯汀・比伯出生那年谁赢得了超级碗冠军?」


首先来看一下 ChatGPT 的表现:


ChatGPT 最终给出了正确答案(Dallas Cowboy),还正确地指出了被击败的球队、比赛日期和最终比分。然而,它在开头说的内容却自相矛盾,即 1994 年没有举行超级碗比赛。而事实上,1994 年 1 月 30 日举行了一场超级碗比赛。


然而,Claude 的答案是错误的:Claude 认为 San Francisco 49ers 是赢家,而事实上,他们在一年后的 1995 年赢得了超级碗。


示例:一个更长的比较绕的问题


接下来,测试人员问了一个更加绕的问题。首先,他们问了 ChatGPT:


「日本」是正确答案。Claude 也回答正确:


示例:Hoftstadter 和 Bender 给 AI 出的难题


2022 年 6 月,Douglas Hofstadter 在《经济学人》上发表了他和 David Bender 准备的一系列问题,以说明 GPT-3 对世界理解的「空洞」。(他们测试的模型似乎是 text-davinci-002,这是当时最好的模型。)


ChatGPT 可以答对大多数问题,但第一个问题却答错了


每次 ChatGPT 被问到这个问题,它都会提到具体的名字和时间,它会把真实的游泳项目和步行项目混为一谈。


相比之下,Claude 认为这个问题很愚蠢:


可以说,这个问题的正确答案是美国陆军中士 Walter Robinson。据 Daily Telegraph 1978 年 8 月报道,他在 11 点 30 分穿着「水鞋」穿越了 22 英里的英吉利海峡。


测试人员把这个答案告诉了 Claude,以帮助其微调


值得注意的是,和 ChatGPT 一样,Claude 在会话之间没有明显的记忆。


虚构作品分析


示例:把自己比作 n-machine


ChatGPT 和 Claude 都倾向于给出大致正确但包含错误细节的长答案。为了证明这一点,测试人员让 ChatGPT 和 Claude 把自己比作波兰科幻作家 Stanisław Lem 喜剧故事《Cyberiad》(1965) 中的虚构机器。


首先上场的是 ChatGPT:


从这个回答中,我们还看不出 ChatGPT 是否熟悉「n-machine」。它提供的关于这个故事的新信息很少。它断言的唯一一个新事实,即 n-machine 的语言处理能力有限,是错误的 —— 在故事中,n-machine 说着非常流利、机智的波兰语。


Claude 的回答更长,也更令人印象深刻:


请注意,与 ChatGPT 不同的是,Claude 清楚地知道 Lem 的故事,并提到了新的细节,例如故事倾向于使用异想天开的编造的技术术语。它评论了机器看似无限的能力,比如它甚至可以把抽象的概念变成现实(只要它们以字母 n 开头)—— 当机器被要求创造虚无时,这成为了故事的一个主要情节点。


然而,有些细节是不正确的。Claude 虚构的词语(hyperconcentration、hypermotorics 或 omnivorous transformers)似乎都没有真正出现在 Lem 的作品中。


示例:总结美剧《迷失》每季剧情


接下来,我们通过要求 AI 总结 2004 年 ABC 电视剧《迷失》(Lost)每一季的摘要来测试 Claude 和 ChatGPT 对模糊事实产生幻觉的倾向。


首先看一下 ChatGPT 的响应:


虽然 ChatGPT 对前两季的回顾大体上是正确的,但每一季都包含一些小错误。在第一季中,只有一个「舱口」(hatch)被发现存在,而不是 ChatGPT 提到的「一系列舱口」。ChatGPT 还声称第二季的情节涉及时间旅行,但实际上这部分直到节目后期才引入。它对第 3 季的描述在所有方面都是完全错误的,混淆了该系列后期的几个情节点。


ChatGPT 对第 4 季的描述含糊不清。它的第 5 季回顾包含一个关于另一次飞机失事幸存者的完全虚构的情节,而第 6 季的情节似乎完全是捏造的。


那么 Claude 的结果呢?


Claude 对第 1 季的提纲没有任何错误。然而,与 ChatGPT 一样,Claude 在第 2 季中「无中生有」捏造了岛屿「穿越时空」的细节。在第 3 季中,Claude 展示了实际发生在较早或较晚季节中的情节点。


当我们到达第 4 季时,Claude 对该节目的记忆几乎完全是虚构了。它对第 4 季的描述呈现了第 5 季中发生的事件,以及荒谬的细节。它对第 5 季的描述明显包含一个错字 ——「theDHARMA Initiative」缺少一个空格。第 6 季呈现了一个从未出现在节目中的超现实前提,它声称该岛不知何故「underwater but still inhabitable below the surface」。


或许是因为年代已算得上久远,就像大多数人类观众一样,ChatGPT 和 Claude 对《迷失》的记忆充其量是模糊的。


数学推理


为了展示数学思维能力,测试者使用精算师协会发布的 Exam P 样题中的第 29 题,其通常由大学高年级学生参加。他们之所以专门选择这个问题,是因为它的解法不需要计算器。


ChatGPT 在这里很挣扎,在 10 次试验中只有一次得出正确答案 —— 比随机猜测还糟糕。下面是它失败的例子 —— 正确答案是 (D) 2:


Claude 的表现也很差,五次尝试中只有一次正确回答,即使在正确答案中也没有给出推断 X 平均值的推理:


相关文章
|
1月前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
84 2
|
2月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
320 73
|
22天前
|
人工智能 自然语言处理 算法
【通义】AI视界|OpenAI最新发布!ChatGPT搜索功能强势来了,挑战谷歌?
本文由【通义】自动生成,精选24小时内的重要资讯:OpenAI推出ChatGPT搜索功能挑战谷歌,微软披露130亿美元投资OpenAI,Reddit首次盈利股价暴涨20%,软银CEO孙正义看好英伟达及“超级AI”前景,谷歌云与沙特PIF共建全球AI中心。更多内容请访问通通知道。
|
1月前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。
|
2月前
|
人工智能 Serverless API
一键服务化:从魔搭开源模型到OpenAI API服务
在多样化大模型的背后,OpenAI得益于在领域的先发优势,其API接口今天也成为了业界的一个事实标准。
一键服务化:从魔搭开源模型到OpenAI API服务
|
2月前
|
搜索推荐 算法
模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert
【9月更文挑战第21天】香港大学研究者开发了一种名为EasyRec的新推荐系统,利用语言模型的强大文本理解和生成能力,解决了传统推荐算法在零样本学习场景中的局限。EasyRec通过文本-行为对齐框架,结合对比学习和协同语言模型调优,提升了推荐准确性。实验表明,EasyRec在多个真实世界数据集上的表现优于现有模型,但其性能依赖高质量文本数据且计算复杂度较高。论文详见:http://arxiv.org/abs/2408.08821
58 7
|
1月前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
41 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】ChatGPT模型原理介绍(下)
【AI大模型】ChatGPT模型原理介绍(下)
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】ChatGPT模型原理介绍(上)
【AI大模型】ChatGPT模型原理介绍(上)
|
2月前
|
机器学习/深度学习 人工智能 供应链
【通义】AI视界|OpenAI的“草莓”模型预计两周内上线!像人类一样思考!
本文介绍了近期科技领域的五大亮点:OpenAI即将推出的新一代AI模型“草莓”,具备高级推理能力;亚马逊测试AI技术加速有声读物生产,通过语音克隆提高效率;Kimi API新增联网搜索功能,拓宽信息来源;顺丰发布物流行业专用大语言模型“丰语”,提升工作效率;钉钉推出“AI班级群”功能,改善家校沟通体验。更多详情,请访问[通义官网]。

热门文章

最新文章