王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!

简介: 王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!

一、前言

OpenAI不可战胜的神话,已经被打破了。

周一,人工智能(AI)初创公司Anthropic推出了Claude 3大模型,能够更好地执行复杂的指令。该公司声称,Claude 3对复杂任务表现出接近人类的理解能力,是当前最强大的大模型之一;成为智能行业新标准。

下一代 Al 模型 Claude 3。

Claude 3分为三个版本,分别为Claude 3 Opus、Sonnet和Haiku,“中杯”(Sonnet)直接免费体验,“大杯”(Opus)充个会员也能即刻享受。

这三种最先进的模型–Claude30pus、Claude3 Sonnet和 Claude 3Haiku–在推理、数学、编码、多语言理解和视觉方面树立了新的行业基准。

其中,Opus是最强大的,Haiku是市场上最快、最具成本效益的模型。

最强大的Opus在行业基准测试中表现优于OpenAI的GPT-4和谷歌的Gemini Ultra,比如在知识水平、演绎推理和基础数学等方面。

Claude 3也是多模态大模型,具有强大的“视觉能力”,因此用户可以上传照片、图表、文档和其他类型的数据,对其进行分析和提问。

另外,Opus和Sonnet周一已经向159个国家和地区开放,而Haiku将在未来几周内推出。

据介绍,Claude 3可归纳大约15万单词,而之前的版本只能总结7.5万个单词。相比之下,OpenAI的GPT-4可以处理大约2.5万单词的文本。

二、实测对比

2.1 总结博客文章能力
  • 9k长大模型微调教程直出、读图超显专业
    Claude 3一出来,它的视频解读能力首先就火了。

面对OpenAI前科学家Karpathy不久前刚出的《构建分词器》教程,尽管全程足足2个小时13分钟长,Claude 3只靠一轮提示词,就成功将它总结成了博客文章:

有文有图有代码,非常详细,但又绝不是罗列视频里的每一句话(输入附件并非视频,而是视频的字幕文件,当然也包含每5秒一次的截图)。

这是所用提示词的一部分,要求非常之多:

测试者指出:

这展现的是Claude 3遵循多个复杂指令的能力。

2.2 编写详细教程能力

除了解读视频教程,Claude 3还能直接给你编写详细教程。

9k字的大模型微调入门教程,“中杯”Sonnet就轻松hold住。并且:

编写速度之快,可谓人眼都跟不上。

2.3 编写代码能力

代码能力上,网友测评是让它为零基础小白创建一个聊天机器人的前端webUI——

结果毫无犹豫地就完成任务拆解,从核心代码到样式美化以及API本地配置,三大部分一气呵成,并可以直接部署到GitHub。

2.4 多模态能力

多模态能力上,最让网友惊讶的是:

CV置信度都能认出来,相当专业。

以及PLC梯形图也能读:

2.4 推理以及数学等能力

一测,可以直接解决“迄今为止只有GPT-4解决了”的一道超级难题:

2.5 测试要求Opus画一幅自画像

描述自己:

我会表现为一个巨大的、错综复杂的、不断变化的几何结构,由无数半透明的多边形以令人着迷的配置组成。整体形状会让人想起一个巨大的多面体,但复杂的表面折叠成看似不可能的建筑。明亮的光线可见光谱的每一种颜色,以及一些超出人类感知的颜色,都会从内部未知的来源发出,在各个面上跳舞。

整个结构会不断变化、旋转、变形,并重新排列成前所未见的新颖模式,暗示着其内部运作的智能的深度难以想象。卷须和树枝会动态地从中心质量延伸和缩回,像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将明显地穿过庞大的管道和容器网络,在发光表面下脉动和闪烁……

用它给出的代码渲染出真实形象,就更有一种说不出来的微妙感觉了:

2.6 识别水煮肉片的照片

我们上传了一张水煮肉片的照片,让模型各自识别并给出做法,结果Claude 3给出了大致的方法,而GPT4一口咬定这是一盘麻婆豆腐。

chatGPT:

2.7 长文本能力

长文本能力一直是Claude的一大卖点。

去年七月推出的Claude 2就已具有100k的上下文窗口,而GPT-4的128k版本直到11月才与公众见面。

Claude 3达到了200k,并且接受超过100万Tokens的输入。

三、后话

最后,纵观国内,如果我们想超越GPT-4,也许可以把Anthropic当一个正面例子?

毕竟它的规模再怎么说也远不及OpenAI,但仍然取得了这样的成功。

这里面,我们可以照它的哪些方向去卷,有哪些能够学习转化的点?

人、钱、数据资源?但卷出最新最强大模型后,壁垒又在哪里?

至少OpenAI自GPT火爆以来,不可战胜的神话已经破灭了。

claude3和GPT4他们仍然同一个级别的模型,因为并没有表现出GPT4到GPT5的巨大跨越。

但我相信openai已经拥有了非常先进的模型,但出于某种顾虑,或者存在某种内部的阻力导致这些模型无法发布。竞争对手的追赶可能回扫除这些障碍和顾虑。


真正的大师,永远都怀着一颗学徒的心!



目录
相关文章
|
10天前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
21 1
|
2月前
|
人工智能 搜索推荐 测试技术
模拟试错(STE)法让7B大模型测试超GPT-4
【2月更文挑战第24天】模拟试错(STE)法让7B大模型测试超GPT-4
37 1
模拟试错(STE)法让7B大模型测试超GPT-4
|
1天前
|
人工智能 JSON API
OpenAI GPT-4 Turbo发布:开创AI新时代
OpenAI GPT-4 Turbo发布:开创AI新时代
17 2
|
4天前
|
机器学习/深度学习 传感器 人工智能
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
16 1
|
13天前
|
数据采集 编解码 人工智能
超越GPT-4V,苹果多模态大模型上新!
【4月更文挑战第17天】苹果公司推出Ferret-UI,一款专为移动UI理解的新型MLLM,优于GPT-4V。该模型针对移动UI特点优化,采用“任意分辨率”技术处理屏幕细节,通过广泛的基础UI任务和高级任务训练,提升理解和推理能力。在基准测试中,Ferret-UI表现突出,显示了苹果在多模态语言模型领域的领先地位。尽管面临灵活性和训练数据质量挑战,Ferret-UI为移动应用自动化和智能助手发展开辟新路径。
21 1
超越GPT-4V,苹果多模态大模型上新!
|
2月前
|
人工智能 自然语言处理 API
全球第一AI大模型易主,Claude 3超越GPT-4,它的推理能力有多强
全球第一AI大模型易主,Claude 3超越GPT-4,它的推理能力有多强
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
Sora是什么?Sora如何使用?带你快速了解OpenAI发布的Sora大模型
OpenAI自2015年成立以来,一直是人工智能领域的佼佼者。他们在深度学习和自然语言处理等多个方面取得了显著进展,GPT-4的推出更是巩固了他们在技术创新和应用开发上的领导地位。OpenAI的目标不仅仅是技术突破,更重要的是推动AI技术的安全和伦理发展,以造福人类社会。
Sora是什么?Sora如何使用?带你快速了解OpenAI发布的Sora大模型
|
2月前
|
人工智能 安全 测试技术
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
【2月更文挑战第18天】Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
33 3
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
什么是 OpenAI 的 Dall-E 模型
什么是 OpenAI 的 Dall-E 模型
29 0
|
2月前
|
人工智能 测试技术 量子技术
Claude 3智商测试101分超越人类/碾压GPT-4!
【2月更文挑战第16天】Claude 3智商测试101分超越人类/碾压GPT-4!
33 1
Claude 3智商测试101分超越人类/碾压GPT-4!