备案控制台

开发者社区人工智能文章正文

斯坦福发布最新 GPT 模型排行榜 AlpacaEval【AI工具免费使用】

2023-10-19 198

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 斯坦福发布最新 GPT 模型排行榜 AlpacaEval【AI工具免费使用】

📌提炼

GPT-4 登顶商用模型
微软 WizardLM 登顶开源模型

❓什么是 AlpacaEval

图片.png

AlpacaEva 是来自斯坦福的团队发布的一款大语言模型自动评测系统，
它是一种基于 LLM 的全自动评估基准，且更加快速、廉价和可靠。
同时包含了应的 AlpacaEval Leaderboard（大语言模型排行榜）。
AlpacaEval 是一个模拟沙盒，能够快速、廉价地对从人类反馈中学习的方法进行实验。它用API LLMs模拟人类反馈，提供一个经过验证的评估协议，并提供一套参考方法的实现。
虽然仅基于 GPT-4 进行自动评估，但与基于 1.8 万条真实人类标注排序结果之间高达 0.94 的皮尔逊相关系数，证明了 AlpacaEval 榜单排名的高可靠性。

🔎AlpacaEval 排行榜包含的测试模型和数据

选择了目前在商用领域和开源社区很火的模型，包括但不限于以下模型

GPT-4 (open ai)
Claude (anthropic)
PaLM 2 (google)
WizardLM (microsoft)

甚至还开设了一个 「准中文」 排行榜

图片.png

💯在不同的测试集上各个大模型的能力评分

图片.png

🚀AlpacaEval Leaderboard 大模型的能力综合评分

图片.png

📌总结:

GPT-4 综合评分稳居第一，胜率超过了95%
胜率都在 80% 以上的 Claude 和 ChatGPT 分别排名第二和第三，其中 Claude 以不到 3% 的优势超越 ChatGPT-3.5。
值得关注的是，获得第四名的是一位排位赛新人——微软华人团队发布的 WizardLM。WizardLM 以仅 130 亿的参数版本排名第一，击败了 650 亿参数量的 Guanaco。

💼 普遍国内白领如何快速应用大模型

对于国内的很多办公白领来说，使用 GPT 4服务的难度有些大，

需要特定的上网服务和国外邮箱
国外的信用卡
即使注册成功了还会有因为ip变动被封号的风险

在这里给大家推荐一个AI工具

可直接使用
用户使用体验良好
接口稳定

👑 TomChat（https://www.tomchat.fun）

🤖 支持gpt4 / gpt-3.5 / claude /code-llm

🎨 支持 AI绘画

🆓 每天十次免费使用机会

🪄 无需魔法

图片.png

图片.png

🤖️在这个AI爆发的元年🎨

🤖️AI不能取代我们不会用AI的人才会被取代🎨

文章标签：

人工智能

测试技术

API

关键词：

AI工具

GPT工具

AI gpt

GPT ai

AI模型

袁袁袁袁满

目录

相关文章

阿里开发者

|

1天前

|

机器学习/深度学习人工智能自然语言处理

当大火的文图生成模型遇见知识图谱，AI画像趋近于真实世界

本文介绍了阿里云机器学习PAI团队开发的名为ARTIST的中文文图生成模型，该模型融合了知识图谱信息，能够生成更加符合常识的图像。ARTIST基于Transformer架构，将文图生成任务分为图像矢量量化和文本引导的图像序列生成两个阶段。在第一阶段，模型使用VQGAN对图像进行矢量量化；在第二阶段，通过GPT模型并结合知识图谱中的实体知识来生成图像序列。在MUGE中文文图生成评测基准上，ARTIST表现出色，其生成效果优于其他模型。此外，EasyNLP框架提供了简单易用的接口，用户可以基于公开的Checkpoint进行少量领域相关的微调，实现各种艺术创作。

阿里开发者

54 0 0

jerrywangsap

|

15小时前

|

人工智能

介绍一个工具，能够检测一段内容是否通过 AI 工具生成

介绍一个工具，能够检测一段内容是否通过 AI 工具生成

jerrywangsap

10 2 2

1808090903196729

|

23小时前

|

人工智能 iOS开发 MacOS

[译][AI OpenAI] 引入 GPT-4o 及更多工具至免费版 ChatGPT 用户

我们推出了最新的旗舰模型 GPT-4o，并为免费版 ChatGPT 用户提供更多功能，包括更快的速度、改进的文本、语音和视觉能力，以及新的桌面应用程序和简化的界面。

1808090903196729

8 0 0

[译][AI OpenAI] 引入 GPT-4o 及更多工具至免费版 ChatGPT 用户

jerrywangsap

|

1天前

|

机器学习/深度学习人工智能自然语言处理

一个检测文字是否是 AI 生成的工具

一个检测文字是否是 AI 生成的工具

jerrywangsap

9 0 0

fw4jufwdlu26q

|

1天前

|

机器学习/深度学习人工智能自然语言处理

OpenAI 推出 GPT-4o，免费向所有人提供GPT-4级别的AI ，可以实时对音频、视觉和文本进行推理，附使用详细指南

GPT-4o不仅提供与GPT-4同等程度的模型能力，推理速度还更快，还能提供同时理解文本、图像、音频等内容的多模态能力，无论你是付费用户，还是免费用户，都能通过它体验GPT-4了

fw4jufwdlu26q

26 1 1

1808090903196729

|

1天前

|

机器学习/深度学习人工智能安全

[译][AI OpenAI] 您好，GPT-4o

GPT-4o 是OpenAI的新旗舰模型，能够处理文本、音频和图像，并生成各种组合的输出。它在语言理解、视觉感知和音频处理方面表现出色。本文介绍了GPT-4o的能力、评估结果、安全性和局限性，以及其可用性和未来计划。

1808090903196729

19 1 1

[译][AI OpenAI] 您好，GPT-4o

楠竹11

|

1天前

|

人工智能

苹果推出理解、转化模型ReALM，性能超GPT-4

【5月更文挑战第13天】苹果发布ReALM模型，将参考解析转化为语言建模，超越GPT-4。ReALM通过将非文本实体转为文本处理，解决了AI在处理特定问题时的局限。实验显示，ReALM在多种参考解析任务上优于GPT-3.5和GPT-4，尤其在屏幕实体参考解析上提升超5%。但模型可能因信息丢失和高计算需求带来挑战。[链接](https://arxiv.org/abs/2403.20329)

楠竹11

9 3 3

MongoDB小助手

|

1天前

|

人工智能 NoSQL atlas

Fireworks AI和MongoDB：依托您的数据，借助优质模型，助力您开发高速AI应用

我们欣然宣布MongoDB与 Fireworks AI 正携手合作让客户能够利用生成式人工智能 (AI)更快速、更高效、更安全地开展创新活动

MongoDB小助手

12 1 1

AIweker

|

1天前

|

人工智能 JSON 计算机视觉

AI工具-标注工具labelme

Labelme是一款Python开源图像标注工具，支持图像分类、目标检测、语义分割和实例分割等任务。它提供了一个GUI界面，用户可绘制圆形、方形和多边形进行标注。安装通过`pip install labelme`和`lxml`，使用时可导入预定义标签列表。标注结果保存为json文件，包含类别、边界框信息和形状类型。Labelme还支持格式转换，如转换为VOC或COCO格式。这款工具对视频标注也兼容。5月更文挑战第9天

AIweker

31 5 5

1808090903196729

|

1天前

|

人工智能 vr&ar

[译][AI Research] AI 模型中的“it”是数据集

模型效果的好坏，最重要的是数据集，而不是架构，超参数，优化器。

1808090903196729

11 0 0

热门文章

最新文章

深入浅出LangChain与智能Agent：构建下一代AI助手

一文解读：阿里云AI基础设施的演进与挑战

流水线运行出错排查难？AI 来帮你

云效流水线智能排查功能实测：AI赋能DevOps，精准定位与高效修复实战评测

使用MongoDB 构建AI：轻松应对从预测式AI到生成式AI

Java语言开发的AI智慧导诊系统源码springboot+redis 3D互联网智导诊系统源码

【AI Agent系列】【阿里AgentScope框架】0. 快速上手：AgentScope框架简介与你的第一个AgentScope程序

[译][AI Meta Llama-3] 最强开源大模型Llama 3发布！

【AI Agent系列】【MetaGPT多智能体学习】7. 剖析BabyAGI：原生多智能体案例一探究竟（附简化版可运行代码）

【AI Agent系列】【MetaGPT多智能体学习】2. 重温单智能体开发 - 深入源码，理解单智能体运行框架

OpenAI GPT-4 Turbo发布：开创AI新时代

百川智能发布超千亿大模型Baichuan 3，中文评测超越GPT-4

科技周报 | GPT商店上线即乱；大模型可被故意“教坏”？

编程领域长期霸榜的GPT之设计奥秘

解析GPT-3、GPT-4和ChatGPT关系-迈向自然语言处理的新高度“

微软Phi-3，3.8亿参数能与Mixtral 8x7B和GPT-3.5相媲美，量化后还可直接在IPhone中运行

过年了，让GPT用Python给你写个放烟花的程序吧！

GPT-4硬核揭秘：能力，操纵性，局限性，聊天GPT Plus等

GPTs 应用开发：使用 GPT Builder 创建自己的 GPTs 应用（下）

GPTs 应用开发：使用 GPT Builder 创建自己的 GPTs 应用（上）

相关课程

更多

【科技少年】AI领航员探索教程（赛前训练）

达摩院视觉AI精品课

AI开发者的Docker实践

AI社区开源学习实践

趣味视觉AI应用入门与实战

AI数学基础

相关电子书

更多

释放算力潜能，加速 AI 应用构建

网易游戏机器学习云平台助力AI应用落地实践

智算时代，基于 ACK 落地云原生AI

相关实验场景

更多

函数计算部署AI艺术字应用，生成新春文字头像

使用函数计算部署通义千问大模型实现AI对话

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

基于通义千问X函数计算部署AI助手

基于阿里云DeepGPU实例，让AI带你畅玩杭州

基于阿里云DeepGPU实例，用AI画唯美国风少女

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考