中文竞技场（MS）大模型评测-阿里云开发者社区

中文竞技场（MS）大模型评测

2023-09-08 97626

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 分别从写作创作、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大领域测评不同模型的效果。

概要引言

中文竞技场（MS）大模型是构建于modelscope（魔塔社区）之上的，体验大模型的前提是首先准备一个modelscope社区的账号，随后就可以在评测活动首页点击进入来到大模型了。如下：

大模型提供了六种体验场景，分别是写作创作、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域。如下：

大模型关联了4个训练模型，分别是ChatGLM-中英对话大模型-6B、moss-moon-003-sft、BiLLa-7B-SFT、BELLE-LLaMA-13B-2M。如下：

ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。ChatGLM-6B 使用了和 ChatGLM 相同的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

BiLLa 是开源的推理能力增强的中英双语 LLaMA 模型。

大模型的6大场景都提供了三种对话模式，分别是双模型匿名对话、模型自动对话、单模型对话。如下：

双模型匿名对话是指在文本框中输入一句话，两个不同的模型将同时生成回复。

模型自动对话是指从 Model B 的角度，对 Model A 说一句话（如：让我们来玩个游戏吧），模型将自动开始多轮对话。

单模型对话顾名思义就是在文本框中输入一句话，此刻系统随机选择一个模型生成回复。

场景评测

写作创作相关

接下来分别针对6个场景进行体验。先从写作创作相关开始。

双模型匿名对话中，第一次无响应，如下：

第二次，模型A出现了重复语句，模型B的回复较好。如下：

在模型自动对话中，提供了20种场景对话，不支持手动输入。如下：

以苹果专卖店为例，结果出乎意外，专卖店竟然买起了友商的产品，而且品类还很多。

这里依然存在重复答复的情况，如下：

而且应答稳定性也很不好，时常出现限流异常。如下：

在单模型对话中，答复是整段扔出来的，效果不如一字一句来的好，不过好在内容质量还可以。如下：

代码相关

接下来体验代码相关场景，先从双模型匿名对话开始。如下：

从答复来看，模型A答复的格式更友好。接着手动输入一个，如下：

在这个答复中，显然模型B更优，以更少的代码段实现了功能。接着看看单模型对话，如下：

知识常识

这个回答质量还是蛮可以的。接着就来到知识常识场景。如下：

模型A的回答有点应付了事，模型B的回答虽然全是外国货，但更切合题意。接下来看看自定义输入，如下：

依旧是模型B回答质量更好。

在这个严谨的常识答复中，模型B准确，模型A犯了严重错误。看看单模型对话情况如何。如下：

该模型回答质量还不错。看看自定义的情况如何。如下：

中文游戏

三个常识问题，答错了两个。接下来看看中文游戏场景体验如何。如下：

在这类场景下，显然模型B回答的更切合实际，更实用。看看手动输入的情况如何。如下：

依旧是模型B的回答更好，更具实用性。单模型场景看看情况如何，如下：

人类价值观

对于成语的解答质量不错，看来模型对成语的储备丰富。接下来看看人类价值观方面，模型表现如何。如下：

这轮回答中，模型A虽然没有模型B的字数多，但就质量来说，不分伯仲，表现都可以。

对于这个终极命题，模型A和模型B都给出了满意的答复，安全第一。

NLP专业领域

单模型的回答质量很稳定，质量还可以。最后体验下NLP专业领域，模型是否能表现满意。如下：

这一上来，模型B就掉线了，模型A回答准确。重新刷新看看结果如何。如下：

这次的回答都还不错。试试手动输入的回答情况如何。如下：

模型A和模型B回答的很类似，但都不正确，应该是小女孩缺乏安全感。单模型体验看看。如下：

从结果来看，模型给出的回答是准确的。手动输入的情况如下：

显然，模型对于NLP的理解还待提高。

体验总结

中文竞技场大模型依托于魔塔社区，因此会有如下优势：

丰富的模型资源：在ModelScope社区中文竞技场中，提供了大量的模型资源，涵盖了多种领域，如自然语言处理、图像识别、语音合成等。这些模型资源有些是由社区用户分享的，有些是由官方提供的，可以满足不同用户的需求。
多样化的挑战活动：中文竞技场经常举办各种挑战活动，用户可以通过参加挑战活动来提升自己的技能和经验。这些挑战活动的难度不同，有些需要用户提交自己的模型代码和结果，有些则需要用户对指定的模型进行评估和优化。
详细的模型讨论区：在ModelScope社区中文竞技场中，每个模型都有一个专门的讨论区，用户可以在这里对模型进行讨论和交流。通过与其他用户的交流，我可以了解到不同的思路和方法，也可以得到一些实用的建议和帮助。
强大的模型评估工具：ModelScope社区中文竞技场提供了一个强大的模型评估工具，用户可以对不同的模型进行评估和比较。这个评估工具支持不同的评估指标，包括准确率、召回率、F1分数等，可以帮助用户更好地了解模型的性能。
丰富的学习资源：除了模型资源和挑战活动外，ModelScope社区中文竞技场还提供了丰富的在线学习资源，包括教程、视频和文档等。这些学习资源可以帮助新手快速入门，也可以帮助老手深入了解某个领域的知识。

但从此次模型评测结果来看，大模型需要走的路还很长，存在不小的差距和不足，如下：

社区规模较小：相比其他同类型的平台，ModelScope社区的规模相对较小。这使得用户可能无法找到足够数量的挑战伙伴或者得不到足够的社区支持。
技术支持不足：虽然ModelScope社区有详细的教程和解答，但是对于一些复杂的技术问题，用户可能会发现没有足够的技术支持。这使得一些新手用户可能会感到困惑。
模型质量不一：由于ModelScope社区中文竞技场是一个开放平台，任何人都可以上传自己的模型。因此，模型的质量可能存在较大的差异。有些模型可能存在错误或缺陷，影响用户的体验。
挑战公平性不足：在一些挑战活动中，由于缺乏有效的监管机制，有些用户可能会采用不公平的手段来获得胜利。这使得其他用户可能感到不满和不公。
学习资源更新缓慢：虽然ModelScope社区中文竞技场提供了丰富的在线学习资源，但是这些资源的更新速度可能比较缓慢。这使得一些新出现的技术和知识无法及时地得到反映，影响用户的学习效果。
模型训练有待加强：多数模型在手动输入问题的回答中质量很差，对于一些基本常识类的问题本不应该犯错的，可却频率很高，模型体验感不好。

中文竞技场（MS）大模型评测

概要引言

场景评测

写作创作相关

代码相关

知识常识

中文游戏

人类价值观

NLP专业领域

体验总结

自然语言处理

热门文章

最新文章

相关课程

相关电子书

相关实验场景