超越GPT4!Cluade 3重磅发布!国外最新大模型!

简介: 超越GPT4!Cluade 3重磅发布!国外最新大模型!

体验Claude3,官网地址:claude.ai

省流

2024/3/4 日,Anthropic公司发布了新一代的Claude 3模型家族,这些模型在多种认知任务上设定了新的行业标准。以下是Claude 3模型家族的主要特点和亮点:

模型家族构成:包括三个模型,按能力递增排序为Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。用户可以根据特定应用选择智能、速度和成本的最佳平衡。

  1. Opus 和 Sonnet 现在可以在 claude.ai 和 Claude API 中使用,后者现已在 159 个国家/地区正式发布。Haiku即将推出。

  1. 性能提升:Opus模型在多个AI系统评估基准上超越同行,包括本科水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基础数学(GSM8K)等,展现出接近人类的理解和流利度。
  2. 即时响应能力:Claude 3模型能够支持实时客户聊天、自动补全和数据提取任务,其中Haiku模型在读取信息密集型的研究论文时速度最快,成本效益最高。
  3. 视觉能力:Claude 3模型具有先进的视觉处理能力,能够处理照片、图表、图形和技术图表等多种视觉格式。
  4. 减少拒绝回答:与前代模型相比,Opus、Sonnet和Haiku在处理接近系统边界的提示时,拒绝回答的可能性显著降低。
  1. 提高准确性:Claude 3模型在处理复杂、事实性问题时的准确性有所提高,Opus模型在挑战性开放式问题上的准确率是Claude 2.1的两倍。
  2. 长文本处理和记忆:Claude 3模型初始提供200K的上下文窗口,但能够处理超过100万个标记的输入,并可能为需要增强处理能力的客户开放这一功能。
  3. 负责任的设计:Claude 3模型家族在设计上注重可信赖性,包括跟踪和减轻各种风险,如错误信息、CSAM、生物滥用、选举干预和自主复制技能。
  4. 减少偏见:Claude 3模型在减少偏见方面取得了进步,根据问题回答偏见基准(BBQ)显示,其偏见比前代模型少。
  5. 易用性:Claude 3模型更擅长遵循复杂、多步骤的指令,能够更好地适应品牌声音和响应指南,以及开发用户可信赖的客户体验。
  6. 模型可用性:Opus和Sonnet现已在API中可用,Haiku模型即将推出。Sonnet在claude.ai上提供免费体验,Opus则为Claude Pro订阅者提供。
  1. 未来计划:Anthropic计划在未来几个月内频繁更新Claude 3模型家族,并推出一系列新功能,以增强模型的能力,特别是针对企业用例和大规模部署。
  1. 安全承诺:Anthropic致力于确保模型的安全性与性能提升保持同步,以引导AI发展朝着积极的社会结果前进。

这些新模型的发布标志着AI技术在智能、速度和成本效益方面的进步,同时也强调了在发展过程中对安全性和负责任设计的承诺。

发布细节

智能新标准

我们的最智能模型Opus在大多数常见的AI系统评估基准上都超过同行,包括本科水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基础数学(GSM8K)等。它在复杂任务上展现出接近人类的理解和流畅度,引领着通用智能的前沿。

所有Claude 3模型在分析和预测、细致入微的内容创建、代码生成以及使用西班牙语、日语和法语等非英语语言进行交谈方面都显示出增强的能力。

以下是Claude 3模型与我们同行在多个性能基准上的比较:

近乎即时的结果

Claude 3模型可以实现实时客户聊天、自动完成和数据提取任务,这些任务的响应必须是即时和实时的。

Haiku是市场上最快、最具成本效益的智能类别模型。它可以在不到三秒的时间内阅读arXiv上的信息和数据密集型研究论文,其中包括图表和图形。发布后,我们希望进一步提高性能。

对于绝大多数工作负载,Sonnet的速度是Claude 2和Claude 2.1的2倍,智能水平更高。它擅长需要快速响应的任务,如知识检索或销售自动化。Opus的速度与Claude 2和2.1相似,但智能水平要高得多。

强大的视觉能力

Claude 3模型具有与其他领先模型相媲美的复杂视觉功能。它们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别高兴能为我们的企业客户提供这种新模式,其中一些客户拥有多达50%的知识库以各种格式编码,例如PDF、流程图或演示幻灯片。


减少拒绝

以前的Claude模型经常做出不必要的拒绝,这表明缺乏对上下文的理解。我们在这一领域取得了有意义的进展:与前几代模型相比,Opus、Sonnet和Haiku拒绝回答系统护栏提示的可能性要小得多。如下图所示,Claude 3模型对请求表现出更细致的理解,识别真正的伤害,并且拒绝回答无害提示的频率要低得多。

提高准确性

各种规模的企业都依赖我们的模型来为他们的客户提供服务,因此我们的模型输出必须保持大规模的高精度。为了评估这一点,我们使用了大量复杂的事实问题,这些问题针对当前模型中的已知弱点。我们将回答分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型说它不知道答案,而不是提供不正确的信息。与Claude 2.1相比,Opus在这些具有挑战性的开放式问题的准确性(或正确答案)上提高了两倍,同时也减少了错误答案的水平。

除了产生更可信的回答外,我们还将很快在我们的Claude 3模型中启用引用,以便他们可以指向参考资料中的精确句子来验证他们的答案。

长上下文和近乎完美的回忆

Claude 3系列模型最初将在发布时提供200K上下文窗口。然而,所有三种模型都能够接受超过1百万个代币的输入,我们可能会将其提供给需要增强处理能力的特定客户。

为了有效地处理长上下文提示,模型需要强大的召回功能。“大海捞针”(NIAH)评估衡量模型从大量数据语料库中准确调用信息的能力。我们通过对每个提示使用30个随机针/问题对之一,并在不同的众包文档语料库上进行测试,增强了该基准的稳健性。Claude 3 Opus不仅实现了近乎完美的回忆,准确率超过99%,而且在某些情况下,它甚至通过识别“针”句似乎是人类人为地插入原始文本来识别评估本身的局限性。

负责任的设计

我们开发了Claude 3系列型号,使其既值得信赖又强大。我们有几个专门的团队来跟踪和缓解广泛的风险,从错误信息和CSAM到生物滥用、选举干扰和自主复制技能。我们继续开发诸如宪法人工智能之类的方法,以提高我们模型的安全性和透明度,并调整了我们的模型,以减轻新模式可能引发的隐私问题。

处理越来越复杂的模型中的偏见是一项持续的工作,我们在这次新版本中取得了进步。如模型卡片所示,根据问答偏见基准(BBQ),Claude 3的偏见比我们以前的模型少。我们始终致力于推进减少偏见和提高模型中性的技术,确保它们不会偏向任何特定的党派立场。

尽管Claude 3模型系列在生物学知识、与网络相关的知识和自主性等关键度量上比以前的模型有所进步,但根据我们的负责任扩展政策,它仍然处于AI安全级别2(ASL-2)。我们的红队评估(按照我们对白宫的承诺和2023年美国行政命令进行)已经得出结论,目前这些模型对灾难性风险的潜在可能性可以忽略不计。我们将继续仔细监测未来的模型,以评估它们距离ASL-3阈值的接近程度。更多安全细节可在Claude 3模型卡片中查看。

更易于使用

Claude 3模型更擅长遵循复杂的多步指示。它们特别擅长坚持品牌语音和回应指南,并开发我们的用户可以信赖的面向客户的体验。此外,Claude 3模型更擅长以像JSON这样的流行结构化输出格式产生输出,使得指导Claude用于自然语言分类和情感分析等用例更简单。

模型详情

Claude 3 Opus是我们最智能的模型,具有最高的市场表现在高度复杂的任务上。它可以在开放式提示和未见过的场景中以惊人的流畅度和类人的理解导航。Opus向我们展示了生成型人工智能的可能性的外限。

Cost 成本* [输入$/百万代币 |输出 $/million 代币]* $15 | $75
上下文窗口 200K
潜在用途 任务自动化:跨 API 和数据库规划和执行复杂操作,交互式编码研发:研究回顾、头脑风暴和假设生成、药物发现策略:对图表和图形、财务和市场趋势的高级分析、预测
介绍 比任何其他可用型号都具有更高的智能性。

*1M tokens available for specific use cases, please inquire.

Claude 3 Sonnet在智能和速度之间取得了理想的平衡,尤其适用于企业工作负载。与同行相比,它以更低的成本提供了强大的性能,并专为大规模AI部署的高耐力而设计。

Cost 成本* [输入$/百万代币 |输出 $/million 代币]* $3 | $15
上下文窗口 200K
潜在用途 数据处理:RAG或搜索和检索大量知识销售:产品推荐、预测、有针对性的营销节省时间的任务:代码生成、质量控制、从图像中解析文本
介绍 比其他具有类似智能的型号更实惠;更适合规模。

Claude 3 Haiku是我们最快、最紧凑的模型,可提供近乎即时的响应。它以无与伦比的速度回答简单的查询和请求。用户将能够构建无缝的AI体验,模仿人类的互动。

*Cost 成本 *** [输入$/百万代币 |输出 $/million 代币] $0.25 | $1.25
Context window 上下文窗口 200K
潜在用途 客户互动:在现场互动、翻译方面提供快速准确的支持内容审核:捕获有风险的行为或客户请求节省成本的任务:优化物流、库存管理、从非结构化数据中提取知识
介绍 比其智能类别中的其他型号更智能、更快、更实惠。

模型可用性

Opus和Sonnet现在可以在我们的API中使用,现已普遍可用,使开发者可以立即注册并开始使用这些模型。Haiku即将推出。Sonnet正在为claude.ai的免费体验提供支持,Opus可供Claude Pro订阅者使用。

Sonnet也可以通过Amazon Bedrock今天就使用,并在Google Cloud的Vertex AI Model Garden中进行私人预览,Opus和Haiku将很快在两者中推出。

更聪明、更快、更安全

我们不认为模型智能已经接近极限,我们计划在接下来的几个月里频繁更新Claude 3模型系列。我们也很高兴推出一系列功能,以增强我们模型的能力,特别是对于企业用例和大规模部署。这些新功能将包括工具使用(也称为函数调用)、交互式编码(也称为REPL)以及更高级的代理能力。

在推动AI能力的边界的同时,我们同样致力于确保我们的安全护栏能够跟上这些性能的飞跃。我们的假设是,处于AI开发前沿是将其轨迹引向积极社会结果的最有效方式。要开始使用Claude,请访问anthropic.com/claude。


相关文章
|
1月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
40 1
|
1月前
|
人工智能 搜索推荐 测试技术
模拟试错(STE)法让7B大模型测试超GPT-4
【2月更文挑战第24天】模拟试错(STE)法让7B大模型测试超GPT-4
75 1
模拟试错(STE)法让7B大模型测试超GPT-4
|
7月前
|
存储 人工智能 调度
GPT-4 Turbo 发布 | 大模型训练的新时代:超算互联网的调度与调优
算力对训练模型的重要性日益凸显。随着大模型训练的流行,全球显卡和算力正在快速增长。算力后周期市场也在迅速崛起。其中“后”更多是指后服务市场,涵盖从显卡服务器到货IDC之后,形成稳定算力到输出稳定商业推理结果全过程。该过程主要涉及云化、调优、调度、部署、落地和数据管理等环节。
|
5天前
|
人工智能 自然语言处理 算法
大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4
【6月更文挑战第25天】 - 复旦大学和上海AI Lab的研究者提出这一算法,用于增强大型语言模型在复杂数学推理任务中的能力,解决现有模型推理准确性问题。 - **MCTSr**流程包括初始化、选择、自细化、自评估、反向传播和UCT更新,通过多轮迭代提升答案质量。 - 实验显示,该算法在**GSM8K**、**GSM Hard**、**MATH**和**Olympiad-level**数据集上表现出色,尤其在多次迭代后。 - 尽管计算成本高且不适用于所有问题类型,但研究揭示了强化LLMs推理能力的新途径,对未来的AI应用具有指导意义。
37 8
|
1月前
|
人工智能 自然语言处理 数据可视化
一键本地部署类GPT大模型,免费!
一键本地部署类GPT大模型,免费!
96 1
|
1月前
|
人工智能
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
【5月更文挑战第10天】TextSquare,由字节跳动、华东师大和华中科技大学联合研发,是新型的文本中心视觉问答模型,借助Square-10M数据集在VQA任务上取得突破。在6个OCRBench等基准上超越现有最佳模型,如GPT4V和Gemini。模型利用视觉问答推理数据增强上下文理解,减少幻觉现象,平均准确率75.1%。但面对复杂问题和泛化能力仍有挑战。[论文链接](https://arxiv.org/abs/2404.12803)
45 4
|
1月前
|
数据采集 编解码 人工智能
超越GPT-4V,苹果多模态大模型上新!
【4月更文挑战第17天】苹果公司推出Ferret-UI,一款专为移动UI理解的新型MLLM,优于GPT-4V。该模型针对移动UI特点优化,采用“任意分辨率”技术处理屏幕细节,通过广泛的基础UI任务和高级任务训练,提升理解和推理能力。在基准测试中,Ferret-UI表现突出,显示了苹果在多模态语言模型领域的领先地位。尽管面临灵活性和训练数据质量挑战,Ferret-UI为移动应用自动化和智能助手发展开辟新路径。
60 1
超越GPT-4V,苹果多模态大模型上新!
|
1月前
|
机器学习/深度学习 传感器 人工智能
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
47 1
|
1月前
|
机器学习/深度学习 数据采集 存储
百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4
百川智能发布大语言模型Baichuan 3,参数超千亿,表现出色。在CMMLU、GAOKAO等中文任务评测中超越GPT-4,且在MATH、HumanEval等专项评测中证明其自然语言处理和代码生成实力。Baichuan 3在医疗领域,如MCMLE、MedExam等评测中成绩突出,成为中文医疗任务的最佳模型。此外,它通过“迭代式强化学习”提升语义理解和生成能力,诗词创作能力远超其他模型。Baichuan 3的推出标志着百川智能在大模型技术上的新里程碑。
73 0
|
1月前
|
存储 人工智能 开发者
比GPT-4快18倍,世界最快大模型Groq登场!
【2月更文挑战第2天】比GPT-4快18倍,世界最快大模型Groq登场!
83 3
比GPT-4快18倍,世界最快大模型Groq登场!