Modelscope 中文竞技场大模型评测

2023-08-15 672

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本次评测我选得三个类别分别是：写作创作相关、中文游戏、知识常识三个类别。

《一》评测相关配置介绍

本次使用的模型为：ziya-llama-13b-v1、chatglm-6b-v2、baichuan-13b-chat-v1、chatyuan-large-v1、chatPLUG-100Poison，我都是采用的双模型形式测试的。

《二》评测步骤

在中文竞技场模型中，点击立即进入。下面可以选分类。

第一个分类我选得是写作创作相关，提了两个文学问题和一个自己实际生活需要解决的问题，ziya-llama-13b-v1和chatglm-6b-v2两个模型，在这个方便各有千秋。ziya-llama-13b-v1回答的较详细，且结果朗朗上口好容易就看懂，像平时的记事文章。chatglm-6b-v2呢，回答的就比较简介，感觉很牛的样子，专业性会比较强。但是就我而言，我更喜欢模型A，很容易读懂。
第二个分类我选得是中文分类相关的。问了一个成语的意思和两个字谜。这一个环节baichuan-13b-chat-v1完胜chatyuan-large-v1，baichuan-13b-chat-v1整理都回答出了我想问的问题，对于问题的重点捕获非常到位，chatyuan-large-v1基本上没有捕获到问题的重点，草草回答了几个字，很是潦草。
第三个环节是知识常识。问了一些数学和社会的问题。chatPLUG-100Poison回答得很详细，会把解题步骤都给写出来。chatyuan-large-v1这次把问题的重点都给捕获到了，回答得非常简介，几乎是没有步骤可言，比较适用于有基础，就想知道答案的同学。
《评测总结》

chatyuan-large-v1非常不擅长文字类的问题。回答数学问题或者专业性抢得问题还不错，但是比较适合基础较好或者理解能力非常高的用户使用，步骤比较简介，或直接给出答案。
chatPLUG-100Poison这个还是非常不错的。对于文字问题以及专业问题都掌握得非常好。而且步骤很详细，适合于大部分用户。
baichuan-13b-chat-v1我让百川回答了几个字谜，分析得很有道理。是比较机灵的模型，值得推荐。
chatglm-6b-v2回答问题的重点和详细程序都掌握得不错，但是回答得内容，不能普遍适用。
ziya-llama-13b-v1这个还是非常优秀的。是我最喜欢的文字回答模型，回答到我心坎里了，而且答案超级适用，适合大力推广。