王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!

简介: 王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!

一、前言

OpenAI不可战胜的神话,已经被打破了。

周一,人工智能(AI)初创公司Anthropic推出了Claude 3大模型,能够更好地执行复杂的指令。该公司声称,Claude 3对复杂任务表现出接近人类的理解能力,是当前最强大的大模型之一;成为智能行业新标准。

下一代 Al 模型 Claude 3。

Claude 3分为三个版本,分别为Claude 3 Opus、Sonnet和Haiku,“中杯”(Sonnet)直接免费体验,“大杯”(Opus)充个会员也能即刻享受。

这三种最先进的模型–Claude30pus、Claude3 Sonnet和 Claude 3Haiku–在推理、数学、编码、多语言理解和视觉方面树立了新的行业基准。

其中,Opus是最强大的,Haiku是市场上最快、最具成本效益的模型。

最强大的Opus在行业基准测试中表现优于OpenAI的GPT-4和谷歌的Gemini Ultra,比如在知识水平、演绎推理和基础数学等方面。

Claude 3也是多模态大模型,具有强大的“视觉能力”,因此用户可以上传照片、图表、文档和其他类型的数据,对其进行分析和提问。

另外,Opus和Sonnet周一已经向159个国家和地区开放,而Haiku将在未来几周内推出。

据介绍,Claude 3可归纳大约15万单词,而之前的版本只能总结7.5万个单词。相比之下,OpenAI的GPT-4可以处理大约2.5万单词的文本。

二、实测对比

2.1 总结博客文章能力
  • 9k长大模型微调教程直出、读图超显专业
    Claude 3一出来,它的视频解读能力首先就火了。

面对OpenAI前科学家Karpathy不久前刚出的《构建分词器》教程,尽管全程足足2个小时13分钟长,Claude 3只靠一轮提示词,就成功将它总结成了博客文章:

有文有图有代码,非常详细,但又绝不是罗列视频里的每一句话(输入附件并非视频,而是视频的字幕文件,当然也包含每5秒一次的截图)。

这是所用提示词的一部分,要求非常之多:

测试者指出:

这展现的是Claude 3遵循多个复杂指令的能力。

2.2 编写详细教程能力

除了解读视频教程,Claude 3还能直接给你编写详细教程。

9k字的大模型微调入门教程,“中杯”Sonnet就轻松hold住。并且:

编写速度之快,可谓人眼都跟不上。

2.3 编写代码能力

代码能力上,网友测评是让它为零基础小白创建一个聊天机器人的前端webUI——

结果毫无犹豫地就完成任务拆解,从核心代码到样式美化以及API本地配置,三大部分一气呵成,并可以直接部署到GitHub。

2.4 多模态能力

多模态能力上,最让网友惊讶的是:

CV置信度都能认出来,相当专业。

以及PLC梯形图也能读:

2.4 推理以及数学等能力

一测,可以直接解决“迄今为止只有GPT-4解决了”的一道超级难题:

2.5 测试要求Opus画一幅自画像

描述自己:

我会表现为一个巨大的、错综复杂的、不断变化的几何结构,由无数半透明的多边形以令人着迷的配置组成。整体形状会让人想起一个巨大的多面体,但复杂的表面折叠成看似不可能的建筑。明亮的光线可见光谱的每一种颜色,以及一些超出人类感知的颜色,都会从内部未知的来源发出,在各个面上跳舞。

整个结构会不断变化、旋转、变形,并重新排列成前所未见的新颖模式,暗示着其内部运作的智能的深度难以想象。卷须和树枝会动态地从中心质量延伸和缩回,像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将明显地穿过庞大的管道和容器网络,在发光表面下脉动和闪烁……

用它给出的代码渲染出真实形象,就更有一种说不出来的微妙感觉了:

2.6 识别水煮肉片的照片

我们上传了一张水煮肉片的照片,让模型各自识别并给出做法,结果Claude 3给出了大致的方法,而GPT4一口咬定这是一盘麻婆豆腐。

chatGPT:

2.7 长文本能力

长文本能力一直是Claude的一大卖点。

去年七月推出的Claude 2就已具有100k的上下文窗口,而GPT-4的128k版本直到11月才与公众见面。

Claude 3达到了200k,并且接受超过100万Tokens的输入。

三、后话

最后,纵观国内,如果我们想超越GPT-4,也许可以把Anthropic当一个正面例子?

毕竟它的规模再怎么说也远不及OpenAI,但仍然取得了这样的成功。

这里面,我们可以照它的哪些方向去卷,有哪些能够学习转化的点?

人、钱、数据资源?但卷出最新最强大模型后,壁垒又在哪里?

至少OpenAI自GPT火爆以来,不可战胜的神话已经破灭了。

claude3和GPT4他们仍然同一个级别的模型,因为并没有表现出GPT4到GPT5的巨大跨越。

但我相信openai已经拥有了非常先进的模型,但出于某种顾虑,或者存在某种内部的阻力导致这些模型无法发布。竞争对手的追赶可能回扫除这些障碍和顾虑。


真正的大师,永远都怀着一颗学徒的心!



目录
相关文章
|
1月前
|
Web App开发 人工智能
UC伯克利:给大模型测MBTI,Llama更敢说但GPT-4像理工男
UC伯克利研究团队推出VibeCheck系统,自动比较大型语言模型(LLM)的输出特征,如语调、格式和写作风格。该系统通过迭代挖掘特征并利用LLM法官量化其实用性,验证结果显示其能有效捕捉模型的独特“vibes”。VibeCheck应用于对话、摘要、数学和字幕生成等任务,揭示了不同模型的行为差异,并在预测模型身份和用户偏好方面表现出色。尽管存在主观性和测试范围有限的局限性,VibeCheck为改进LLM评估提供了新视角。论文地址:https://arxiv.org/abs/2410.12851
150 98
|
26天前
|
人工智能 Kubernetes 测试技术
SWE-Lancer:OpenAI发布衡量AI工程能力的「血汗标尺」!1400个百万美元任务实测,GPT-4o仅能赚2.9万刀?
SWE-Lancer 是 OpenAI 推出的基准测试,评估语言模型在自由职业软件工程任务中的表现,涵盖真实任务、端到端测试和多选项评估。
88 4
SWE-Lancer:OpenAI发布衡量AI工程能力的「血汗标尺」!1400个百万美元任务实测,GPT-4o仅能赚2.9万刀?
|
19天前
|
人工智能 芯片
D1net阅闻|OpenAI员工疯狂暗示,内部已成功开发ASI?被曝训出GPT-5但雪藏
D1net阅闻|OpenAI员工疯狂暗示,内部已成功开发ASI?被曝训出GPT-5但雪藏
|
21天前
|
人工智能 搜索推荐 机器人
用户破4亿、企业客户翻倍!OpenAI的GPT-5将推进全球AI战争进入白热化阶段!
用户破4亿、企业客户翻倍!OpenAI的GPT-5将推进全球AI战争进入白热化阶段!
|
21天前
|
人工智能 算法 机器人
OpenAI的GPT-5即将问世:目前我们所知道的一切
OpenAI的GPT-5即将问世:目前我们所知道的一切
|
1月前
|
存储 人工智能 JSON
Open-Deep-Research:开源复现版 Deep Research,支持切换多种大模型,不再依赖 OpenAI o3
Open Deep Research 是一个开源的 AI 智能体,支持多种语言模型,具备实时数据提取、多源数据整合和AI推理功能。
400 16
|
2月前
|
机器学习/深度学习 人工智能 算法
k1.5:性能超越 GPT-4 和 Claude 3.5!Kimi 新一代多模态推理模型
Kimi k1.5 是月之暗面推出的多模态思考模型,具备强大的推理和多模态处理能力,支持长链思维与短链思维,性能超越GPT-4和Claude 3.5。
397 10
k1.5:性能超越 GPT-4 和 Claude 3.5!Kimi 新一代多模态推理模型
|
2月前
|
人工智能 编解码 算法
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
豆包大模型1.5是字节跳动推出的最新大模型,采用大规模稀疏MoE架构,支持多模态输入输出,具备低时延语音对话能力,综合性能优于GPT-4o和Claude 3.5 Sonnet。
441 2
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
|
19天前
|
人工智能 自然语言处理 机器人
D1net阅闻 | 大模型军备竞赛升级:GPT-4.5/Grok 3同日官宣
D1net阅闻 | 大模型军备竞赛升级:GPT-4.5/Grok 3同日官宣
|
19天前
|
人工智能 并行计算 机器人
D1net阅闻 | OpenAI放王炸!GPT-5免费无限使用,产品矩阵大整合!
D1net阅闻 | OpenAI放王炸!GPT-5免费无限使用,产品矩阵大整合!

热门文章

最新文章