第一个超越ChatGPT的开源模型来了?网友并不买账

简介: 第一个超越ChatGPT的开源模型来了?网友并不买账


编辑:梓文

开源模型真的超过 ChatGPT了吗?


大模型火了起来,每天我们都能看到各种「大」新闻。

今天,又来了个 Big News:新开源的一个大模型超越了 ChatGPT。

具体是什么呢?

OpenLLM 是一系列在极小、多样且高质量的多轮对话数据集上进行微调的开源语言模型。

这两日,作者们更新了该系列模型,并宣称:OpenChat 模型在 AlpacaEval 上获得 80.9% 的胜率;在 Vicuna GPT-4 评估上,性能达到 ChatGPT 的 105%。

也就是上面推特截图中,两位博主宣称的开源模型超越 ChatGPT/GPT-3.5。

OpenLLM 的特色是基于 LLaMA 开源模型,在只有 6,000 个 GPT4 对话的数据集上进行微调,从而达到非常好的效果。

此次更新的模型型号与评审结果如下:

  • OpenChat:基于 LLaMA-13B,上下文长度为 2048。
  • 在Vicuna GPT-4 评估中达到 ChatGPT 分数的 105.7% 。
  • 在 AlpacaEval 上达到 80.9% 的胜率。
  • OpenChat-8192:基于 LLaMA-13B,扩展上下文长度为 8192。
  • 在 Vicuna GPT-4 评估中达到 ChatGPT 分数的 106.6% 。
  • 在 AlpacaEval 上实现 79.5% 的胜率。


也就是说,两个模型在 Vicuna GPT-4 评估榜单上结果都超越了 ChatGPT。但这种评审 + 宣传的方式似乎并不被大家认可。

网友:夸张
在 Twitter 讨论中,有网友表明,这就是夸张的说法。

在此「大」新闻公布后,Vicuna 官方也迅速做出了回应。

实际上,Vicuna 的测试基准已被弃用,现在使用的是更高级的 MT-bench 基准。该基准的测试,有着更加具有挑战性的任务,并且解决了 gpt4 评估中的偏差以及限制。

在 MT-bench 上,OpenChat 性能表现与 wizardlm-13b 相似。也就是说,开源模型与 GPT-3.5 仍然有着一定差距。这也正是 MT-bench 所强调的内容 —— 开源模型不是完美无缺的,但是这将迈向更好的聊天机器人评估。

前几日,机器之心报道内容《「羊驼」们走到哪一步了?研究表明:最好的能达到 GPT-4 性能的 68%》,也对开源模型的性能进行了评估。

评估还表明,在任何给定的评估中,最佳模型的平均性能达到 ChatGPT 的 83%、GPT-4 的 68%,这表明需要进一步构建更好的基础模型和指令调优数据以缩小差距。

感兴趣的读者可以查看原文。

相关文章
|
1月前
|
JSON 自然语言处理 API
|
6天前
|
机器学习/深度学习 缓存 自然语言处理
采用ChatGPT大模型高效精准文档翻译
这款文档翻译工具支持PDF、Word、PPT、Excel和TXT等多种格式,利用ChatGPT大模型进行高效精准的翻译,覆盖30多种语言。它通过文档解析、预处理、翻译和结果合成步骤工作,并采用缓存、并行处理和负载均衡技术优化性能。该工具满足全球化背景下企业和个人的多语言需求,助力信息交流。
39 0
采用ChatGPT大模型高效精准文档翻译
|
13天前
|
人工智能 机器人 API
OpenAI发布新AI模型GPT-4o和桌面版ChatGPT
OpenAI发布新AI模型GPT-4o和桌面版ChatGPT
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
让非算法同学也能了解 ChatGPT 等相关大模型
让非算法同学也能了解 ChatGPT 等相关大模型
让非算法同学也能了解 ChatGPT 等相关大模型
|
25天前
|
机器学习/深度学习 人工智能 算法
ChatGPT如何思考?心理学和神经科学破解AI大模型,Nature发文
【6月更文挑战第5天】Nature文章探讨了人工智能,尤其是ChatGPT这类大型语言模型(LLMs)的思考机制。随着AI复杂性的增加,理解其决策过程成为挑战。可解释AI(XAI)领域致力于揭示这些“黑盒子”的工作原理,但LLMs的规模和潜在问题(如错误信息和隐私泄露)使这一任务更具紧迫性。研究人员借助心理学和神经科学方法尝试理解模型决策,但目前仍处于早期阶段,且有争议认为模型可能只是模拟而非真正理解文本。
46 1
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型的演进之路:从萌芽到ChatGPT的辉煌
大模型的演进之路:从萌芽到ChatGPT的辉煌
|
6天前
|
机器学习/深度学习 自然语言处理 机器人
ChatGPT是一个基于深度学习的自然语言处理模型
ChatGPT是一个基于深度学习的自然语言处理模型
29 0
|
1月前
|
存储 人工智能 算法
【论文阅读-问答】人工智能生成内容增强的甲状腺结节计算机辅助诊断模型:CHATGPT风格的助手
【论文阅读-问答】人工智能生成内容增强的甲状腺结节计算机辅助诊断模型:CHATGPT风格的助手
40 6
|
1月前
|
编解码 人工智能 自然语言处理
贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!
【4月更文挑战第15天】贾佳亚团队推出Mini-Gemini模型,旨在缩小与GPT-4和Gemini的性能差距。该模型采用双视觉编码器处理高分辨率图像,提升视觉对话和推理准确性。搭配高质量数据集,增强图像理解和推理能力。Mini-Gemini在零样本基准测试中表现出色,尤其在高分辨率图像处理上。不过,模型在复杂视觉推理和计数能力上仍有改进空间。
20 1
贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!
|
1月前
|
人工智能 测试技术 开发者
马斯克将在本周,开源类ChatGPT产品Grok
【2月更文挑战第21天】马斯克将在本周,开源类ChatGPT产品Grok
60 1
马斯克将在本周,开源类ChatGPT产品Grok