ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好(3)

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好

代码生成和解释


示例:生成 Python 模组


为了比较 ChatGPT 和 Claude 的代码生成能力,测试者向两个聊天机器人提出了实施两种基本排序算法并比较它们的执行时间的问题。


以上,ChatGPT 可以轻松地为这两种算法编写正确的算法 —— 你会在在线教程中经常看到它们。


我们继续评测代码:


时序码也是正确的。对于循环的 10 次迭代中的每一次,都会正确创建前 5000 个非负整数的排列,并记录这些输入的时间。虽然有人可能会争辩说,使用数值算法 NumPy 会更正确地执行这些操作,但对于这个问题,测试者明确要求实现排序算法,那么简单地使用列表是可接受的。


现在让我们看看 Claude 的回应:


与 ChatGPT 一样,在上面我们看到 Claude 背诵基本的排序算法没有什么困难。


然而在评估代码中,Claude 犯了一个错误:每个算法使用的输入是随机选择的 5000 个整数(可能包含重复项),而提示中要求的输入是前 5000 个非负整数的随机排列( 不包含重复项)。


同样值得注意的是,Claude 在其输出的末尾报告了准确的时间值 —— 显然是推测或估计的结果,但可能会产生误导,因为它们并没有被识别为只是说明性数字。


示例:生成 “FuzzBuzz” 的输出


在这里,测试者尝试经典「FizzBuzz」编程挑战的变体,更改参数,以便代码在 2 的倍数上输出「Fuzz」,在 5 的倍数上输出「Buzz」,在 2 和 5 的倍数上输出「FuzzBuzz」。他们提示 ChatGPT 输入包含此函数返回值的列表理解的值:


ChatGPT 通常会解决这个问题,五次试验中有四次成功。然而,Claude 在所有五次尝试中都失败了:


喜剧写作


看起来 Claude 在这方面显著强于 ChatGPT,当然离真正的人类还差得很远。经过几轮的挑选和尝试不同的提示后,测试人员能够从 Claude 那里得到以下宋飞传风格的笑话 —— 尽管大多数都不太行:


相比之下,ChatGPT 认为每月为 Twitter 支付 8 美元不是玩笑梗,难道因为收过马斯克的钱?


即使在编辑提示以适应 ChatGPT 的谨慎之后,测试人员也无法得到有趣的笑话 —— 这是 ChatGPT 输出的典型示例:


文本摘要


最后一个示例要求 ChatGPT 和 Claude 总结 Wikinews 中的一篇文章的文本,Wikinews 是一个免费内容的新闻 wiki。


使用本文完整的维基百科风格的编辑标记作为输入。对于两个模型,这里输入提示「我会给你一篇新闻文章的正文,我希望你用一个简短的段落为我总结一下,忽略回复,然后粘贴文章标记的全文。


ChatGPT 很好地总结了文本,但可以说不是按要求在短段落中:



Claude 也很好地总结了这篇文章,并在之后继续对话,询问其反应是否令人满意并提出改进意见:


结论


总的来说,Claude 是 ChatGPT 的有力竞争者,在许多方面都有改进。虽然有「宪法」原则作为示范,但 Claude 不仅更倾向于拒绝不适当的请求,而且比 ChatGPT 更有趣。Claude 的写作内容更冗长,但也更自然,它有连贯地描述自己的能力,其局限性和目标似乎也让它能够更自然地回答关于其他主题的问题。


对于代码生成或代码推理,Claude 似乎表现更差,它的代码生成似乎会有更多错误。对于其他任务,例如通过逻辑问题进行计算和推理,Claude 和 ChatGPT 看起来大体相似。


参考内容:

https://www.nytimes.com/2023/01/27/technology/anthropic-ai-funding.html

https://techcrunch.com/2023/01/09/anthropics-claude-improves-on-chatgpt-but-still-suffers-from-limitations/

https://scale.com/blog/chatgpt-vs-claude#Analysis%20of%20fictional%20works

相关文章
|
25天前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
248 73
|
1月前
|
人工智能 Serverless API
一键服务化:从魔搭开源模型到OpenAI API服务
在多样化大模型的背后,OpenAI得益于在领域的先发优势,其API接口今天也成为了业界的一个事实标准。
一键服务化:从魔搭开源模型到OpenAI API服务
|
20天前
|
搜索推荐 算法
模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert
【9月更文挑战第21天】香港大学研究者开发了一种名为EasyRec的新推荐系统,利用语言模型的强大文本理解和生成能力,解决了传统推荐算法在零样本学习场景中的局限。EasyRec通过文本-行为对齐框架,结合对比学习和协同语言模型调优,提升了推荐准确性。实验表明,EasyRec在多个真实世界数据集上的表现优于现有模型,但其性能依赖高质量文本数据且计算复杂度较高。论文详见:http://arxiv.org/abs/2408.08821
38 7
|
1月前
|
机器学习/深度学习 人工智能 供应链
【通义】AI视界|OpenAI的“草莓”模型预计两周内上线!像人类一样思考!
本文介绍了近期科技领域的五大亮点:OpenAI即将推出的新一代AI模型“草莓”,具备高级推理能力;亚马逊测试AI技术加速有声读物生产,通过语音克隆提高效率;Kimi API新增联网搜索功能,拓宽信息来源;顺丰发布物流行业专用大语言模型“丰语”,提升工作效率;钉钉推出“AI班级群”功能,改善家校沟通体验。更多详情,请访问[通义官网]。
|
2月前
|
人工智能 搜索推荐 机器人
OpenAI 将向企业开放 GPT-4o 模型定制版,国内怎么使用ChatGPT?
OpenAI新推功能让企业客户能定制GPT-4o模型,通过微调技术满足特定需求和业务场景,以前所未有的方式优化AI投资回报。企业上传自有数据后,可在一到两小时内完成模型定制,如滑板公司打造专业客服聊天机器人解答详细问题,大幅提升服务针对性与客户体验。目前定制限于文本数据,但仍显著增强了企业应用AI的灵活性与效率。
68 2
OpenAI 将向企业开放 GPT-4o 模型定制版,国内怎么使用ChatGPT?
|
2月前
|
人工智能 机器人
OpenAI推出了其最强大模型的迷你版本
OpenAI推出了其最强大模型的迷你版本
OpenAI推出了其最强大模型的迷你版本
|
2月前
|
人工智能 监控 数据挖掘
普华永道和OpenAI达成合作协议,成为首个ChatGPT Enterprise的转售商
普华永道和OpenAI达成合作协议,成为首个ChatGPT Enterprise的转售商
普华永道和OpenAI达成合作协议,成为首个ChatGPT Enterprise的转售商
|
15天前
|
人工智能 测试技术 开发者
微软发布强大的新Phi-3.5模型,击败谷歌、OpenAI等
微软发布强大的新Phi-3.5模型,击败谷歌、OpenAI等
|
2月前
|
人工智能 开发者 芯片
【51单片机】单片机开发者的福音: 让AI看电路图帮你编写程序(使用ChatGPT 中训练好的单片机工程师模型)
使用AI大语言模型编写 单片机程序. 使用的是 OpenAI公司发布的 ChatGPT .在ChatGPT上有别人训练好的 单片机工程师 with Keil uVision 5 - C Code Explainer模型, 可以上传电路图改模型可以通过这个用户所给的电路图进行编程.
【51单片机】单片机开发者的福音: 让AI看电路图帮你编写程序(使用ChatGPT 中训练好的单片机工程师模型)
|
1月前
|
存储 Linux API
物理地址模型 【ChatGPT】
物理地址模型 【ChatGPT】

热门文章

最新文章