ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好(3)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好

代码生成和解释


示例:生成 Python 模组


为了比较 ChatGPT 和 Claude 的代码生成能力,测试者向两个聊天机器人提出了实施两种基本排序算法并比较它们的执行时间的问题。


以上,ChatGPT 可以轻松地为这两种算法编写正确的算法 —— 你会在在线教程中经常看到它们。


我们继续评测代码:


时序码也是正确的。对于循环的 10 次迭代中的每一次,都会正确创建前 5000 个非负整数的排列,并记录这些输入的时间。虽然有人可能会争辩说,使用数值算法 NumPy 会更正确地执行这些操作,但对于这个问题,测试者明确要求实现排序算法,那么简单地使用列表是可接受的。


现在让我们看看 Claude 的回应:


与 ChatGPT 一样,在上面我们看到 Claude 背诵基本的排序算法没有什么困难。


然而在评估代码中,Claude 犯了一个错误:每个算法使用的输入是随机选择的 5000 个整数(可能包含重复项),而提示中要求的输入是前 5000 个非负整数的随机排列( 不包含重复项)。


同样值得注意的是,Claude 在其输出的末尾报告了准确的时间值 —— 显然是推测或估计的结果,但可能会产生误导,因为它们并没有被识别为只是说明性数字。


示例:生成 “FuzzBuzz” 的输出


在这里,测试者尝试经典「FizzBuzz」编程挑战的变体,更改参数,以便代码在 2 的倍数上输出「Fuzz」,在 5 的倍数上输出「Buzz」,在 2 和 5 的倍数上输出「FuzzBuzz」。他们提示 ChatGPT 输入包含此函数返回值的列表理解的值:


ChatGPT 通常会解决这个问题,五次试验中有四次成功。然而,Claude 在所有五次尝试中都失败了:


喜剧写作


看起来 Claude 在这方面显著强于 ChatGPT,当然离真正的人类还差得很远。经过几轮的挑选和尝试不同的提示后,测试人员能够从 Claude 那里得到以下宋飞传风格的笑话 —— 尽管大多数都不太行:


相比之下,ChatGPT 认为每月为 Twitter 支付 8 美元不是玩笑梗,难道因为收过马斯克的钱?


即使在编辑提示以适应 ChatGPT 的谨慎之后,测试人员也无法得到有趣的笑话 —— 这是 ChatGPT 输出的典型示例:


文本摘要


最后一个示例要求 ChatGPT 和 Claude 总结 Wikinews 中的一篇文章的文本,Wikinews 是一个免费内容的新闻 wiki。


使用本文完整的维基百科风格的编辑标记作为输入。对于两个模型,这里输入提示「我会给你一篇新闻文章的正文,我希望你用一个简短的段落为我总结一下,忽略回复,然后粘贴文章标记的全文。


ChatGPT 很好地总结了文本,但可以说不是按要求在短段落中:



Claude 也很好地总结了这篇文章,并在之后继续对话,询问其反应是否令人满意并提出改进意见:


结论


总的来说,Claude 是 ChatGPT 的有力竞争者,在许多方面都有改进。虽然有「宪法」原则作为示范,但 Claude 不仅更倾向于拒绝不适当的请求,而且比 ChatGPT 更有趣。Claude 的写作内容更冗长,但也更自然,它有连贯地描述自己的能力,其局限性和目标似乎也让它能够更自然地回答关于其他主题的问题。


对于代码生成或代码推理,Claude 似乎表现更差,它的代码生成似乎会有更多错误。对于其他任务,例如通过逻辑问题进行计算和推理,Claude 和 ChatGPT 看起来大体相似。


参考内容:

https://www.nytimes.com/2023/01/27/technology/anthropic-ai-funding.html

https://techcrunch.com/2023/01/09/anthropics-claude-improves-on-chatgpt-but-still-suffers-from-limitations/

https://scale.com/blog/chatgpt-vs-claude#Analysis%20of%20fictional%20works

相关文章
|
2月前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
218 2
|
17天前
|
Go 开发工具
百炼-千问模型通过openai接口构建assistant 等 go语言
由于阿里百炼平台通义千问大模型没有完善的go语言兼容openapi示例,并且官方答复assistant是不兼容openapi sdk的。 实际使用中发现是能够支持的,所以自己写了一个demo test示例,给大家做一个参考。
|
20天前
|
人工智能 自然语言处理 计算机视觉
OpenAI发布sCM提升50倍效率,扩散模型重大技术突破!
OpenAI近期发布了Simplified Consistency Models (sCM) 技术,这是在扩散模型基础上的重大改进,实现了50倍效率提升。sCM通过简化和稳定连续时间一致性模型的训练过程,解决了传统模型中的离散化误差和训练不稳定性问题,显著提升了生成模型的性能和效率。在多个数据集上的测试结果表明,sCM不仅超越了现有模型,还在生成模型的实际应用中展现了巨大潜力。论文地址:https://arxiv.org/abs/2410.11081
39 3
|
1月前
|
人工智能 计算机视觉 网络架构
OpenAI攻克扩散模型短板,清华校友路橙、宋飏合作最新论文
扩散模型在生成AI领域取得显著成果,但其训练不稳定性和采样速度慢限制了发展。OpenAI与清华校友合作,提出连续时间一致性模型(CMs),通过TrigFlow等创新解决了这些问题,大幅提升了训练稳定性和计算效率,实现了与最优模型相当的样本质量,同时减少了计算资源消耗。
42 2
|
3月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
370 73
|
1月前
|
SQL 机器学习/深度学习 人工智能
今日 AI 开源|共 4 项|DeepSeek 推出新一代 AI 推理模型,实力比肩 OpenAI o1-preview!
本文介绍了四个最新的 AI 开源项目,涵盖多模态生成式 AI、自然语言到 SQL 转化、多模态数学推理和复杂逻辑推理等多个领域,为 AI 应用开发提供了丰富的资源和工具。
117 0
今日 AI 开源|共 4 项|DeepSeek 推出新一代 AI 推理模型,实力比肩 OpenAI o1-preview!
|
1月前
|
人工智能 自然语言处理 算法
【通义】AI视界|OpenAI最新发布!ChatGPT搜索功能强势来了,挑战谷歌?
本文由【通义】自动生成,精选24小时内的重要资讯:OpenAI推出ChatGPT搜索功能挑战谷歌,微软披露130亿美元投资OpenAI,Reddit首次盈利股价暴涨20%,软银CEO孙正义看好英伟达及“超级AI”前景,谷歌云与沙特PIF共建全球AI中心。更多内容请访问通通知道。
|
2月前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。
|
3月前
|
人工智能 Serverless API
一键服务化:从魔搭开源模型到OpenAI API服务
在多样化大模型的背后,OpenAI得益于在领域的先发优势,其API接口今天也成为了业界的一个事实标准。
一键服务化:从魔搭开源模型到OpenAI API服务
|
3月前
|
搜索推荐 算法
模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert
【9月更文挑战第21天】香港大学研究者开发了一种名为EasyRec的新推荐系统,利用语言模型的强大文本理解和生成能力,解决了传统推荐算法在零样本学习场景中的局限。EasyRec通过文本-行为对齐框架,结合对比学习和协同语言模型调优,提升了推荐准确性。实验表明,EasyRec在多个真实世界数据集上的表现优于现有模型,但其性能依赖高质量文本数据且计算复杂度较高。论文详见:http://arxiv.org/abs/2408.08821
84 7

热门文章

最新文章

下一篇
DataWorks