大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿？CMU副教授测评了7个类ChatGPT大模型-阿里云开发者社区

大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿？CMU副教授测评了7个类ChatGPT大模型

2023-05-26 402

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿？CMU副教授测评了7个类ChatGPT大模型

大语言模型「七雄争霸」，看谁拔得了头筹。

大型语言模型（LLM）正在风靡全球，它们的一个重要应用就是聊天，并在问答、客服和其他许多方面都有应用。然而，聊天机器人是出了名的难以评估。究竟这些模型在什么情况下最好用，我们目前尚不明晰。因此，LLM 的测评非常重要。

此前一位名叫 Marco Tulio Ribeiro 的 Medium 博主在一些复杂任务上对 Vicuna-13B、MPT-7b-Chat 和 ChatGPT 3.5 进行了测试。结果表明，Vicuna 对于许多任务来说是 ChatGPT (3.5) 的可行替代品，而 MPT 还没有准备好在现实世界中使用。

近日，CMU 副教授 Graham Neubig 对已有七种聊天机器人进行了详细测评，并制作了一个实现自动比较的开源工具，最后形成了一份测评报告。

在这份报告中，测评者展示了一些聊天机器人的初步评估、比较结果，目的是让人们更容易地了解最近出现的所有开源模型以及基于 API 的模型现状。

具体来说，测评者创建了一个新的开源工具包 ——Zeno Build，用于评估 LLM。该工具包结合了：（1）通过 Hugging Face 或在线 API 使用开源 LLM 的统一界面；（2）使用 Zeno 浏览和分析结果的在线界面，以及（3）使用 Critique 对文本进行 SOTA 评估的指标。

具体结果参加：https://zeno-ml-chatbot-report.hf.space/

以下是评估结果汇总：

测评者评估了 7 种语言模型：GPT-2、LLaMa、Alpaca、Vicuna、MPT-Chat、Cohere Command 和 ChatGPT (gpt-3.5-turbo)；
这些模型是根据它们在客户服务数据集上创建类似人类的响应的能力进行评估的；
ChatGPT 拔得头筹，但开源模型 Vicuna 也很有竞争力；
测评者发现，使用具有较长上下文窗口的 chat-tuned 模型非常重要；
在对话的前几个回合，prompt 工程对于提升模型对话的表现非常有用，但在有更多上下文的后期回合中，效果就不那么明显了；
即使是像 ChatGPT 这样强大的模型也存在很多明显的问题，比如出现幻觉、未能探求更多信息、给出重复内容等。

以下是评测的详细信息。

设置

模型概况

测评者使用的是 DSTC11 客户服务数据集。DSTC11 是一个对话系统技术挑战赛的数据集，旨在支持更具信息性和吸引力的任务导向对话，通过利用评论帖子中的主观知识来实现。

DSTC11 数据集包含多个子任务，如多轮对话、多领域对话等等。例如，其中一个子任务是基于电影评论的多轮对话，其中用户和系统之间的对话旨在帮助用户找到适合他们口味的电影。

他们测试了以下 7 个模型：

GPT-2：2019 年的一个经典语言模型。测评者把它作为一个基线加入，看看最近语言建模方面的进展对建立更好的聊天模型有多大影响。
LLaMa：一个最初由 Meta AI 训练的语言模型，使用的是直接的语言建模目标。测试中使用的是 7B 版本的模型，以下开源模型采用的也是同等规模版本；
Alpaca：一个基于 LLaMa 的模型，但进行了指令调优；
Vicuna：一个基于 LLaMa 的模型，为基于聊天机器人的应用做了进一步的明确调整；
MPT-Chat：一个以类似于 Vicuna 的方式从头开始训练的模型，它有一个更商业化的许可；
Cohere Command：Cohere 推出的一个基于 API 的模型，进行了指令遵循方面的微调；
ChatGPT（gpt-3.5-turbo）：标准的基于 API 的聊天模型，由 OpenAI 研发。

对于所有的模型，测评者使用了默认的参数设置。其中包括温度（temperature）为 0.3，上下文窗口（context window）为 4 个先前的对话轮次，以及一个标准的 prompt：「You are a chatbot tasked with making small-talk with people」。

评价指标

测评者根据这些模型的输出与人类客服反应的相似程度来评估这些模型。这是用 Critique 工具箱提供的指标完成的：