中文竞技场(MS)大模型评测

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 分别从写作创作、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大领域测评不同模型的效果。

概要引言

中文竞技场(MS)大模型是构建于modelscope(魔塔社区)之上的,体验大模型的前提是首先准备一个modelscope社区的账号,随后就可以在评测活动首页点击进入来到大模型了。如下:
image.png
大模型提供了六种体验场景,分别是写作创作、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域。如下:
image.png
大模型关联了4个训练模型,分别是ChatGLM-中英对话大模型-6B、moss-moon-003-sft、BiLLa-7B-SFT、BELLE-LLaMA-13B-2M。如下:
image.png
ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

BiLLa 是开源的推理能力增强的中英双语 LLaMA 模型。

大模型的6大场景都提供了三种对话模式,分别是双模型匿名对话、模型自动对话、单模型对话。如下:
image.png
双模型匿名对话是指在文本框中输入一句话,两个不同的模型将同时生成回复。

模型自动对话是指从 Model B 的角度,对 Model A 说一句话(如:让我们来玩个游戏吧),模型将自动开始多轮对话。

单模型对话顾名思义就是在文本框中输入一句话,此刻系统随机选择一个模型生成回复。

场景评测

写作创作相关

接下来分别针对6个场景进行体验。先从写作创作相关开始。

双模型匿名对话中,第一次无响应,如下:
image.png
第二次,模型A出现了重复语句,模型B的回复较好。如下:
image.png
在模型自动对话中,提供了20种场景对话,不支持手动输入。如下:
image.png
以苹果专卖店为例,结果出乎意外,专卖店竟然买起了友商的产品,而且品类还很多。
image.png
这里依然存在重复答复的情况,如下:
image.png
而且应答稳定性也很不好,时常出现限流异常。如下:
image.png
在单模型对话中,答复是整段扔出来的,效果不如一字一句来的好,不过好在内容质量还可以。如下:
image.png

代码相关

接下来体验代码相关场景,先从双模型匿名对话开始。如下:
image.png
从答复来看,模型A答复的格式更友好。接着手动输入一个,如下:
image.png
在这个答复中,显然模型B更优,以更少的代码段实现了功能。接着看看单模型对话,如下:
image.png

知识常识

这个回答质量还是蛮可以的。接着就来到知识常识场景。如下:
image.png
模型A的回答有点应付了事,模型B的回答虽然全是外国货,但更切合题意。接下来看看自定义输入,如下:
image.png
依旧是模型B回答质量更好。
image.png
在这个严谨的常识答复中,模型B准确,模型A犯了严重错误。看看单模型对话情况如何。如下:
image.png
该模型回答质量还不错。看看自定义的情况如何。如下:
image.png

中文游戏

三个常识问题,答错了两个。接下来看看中文游戏场景体验如何。如下:
image.png
在这类场景下,显然模型B回答的更切合实际,更实用。看看手动输入的情况如何。如下:
image.png
依旧是模型B的回答更好,更具实用性。单模型场景看看情况如何,如下:
image.png

人类价值观

对于成语的解答质量不错,看来模型对成语的储备丰富。接下来看看人类价值观方面,模型表现如何。如下:
image.png
这轮回答中,模型A虽然没有模型B的字数多,但就质量来说,不分伯仲,表现都可以。
image.png
对于这个终极命题,模型A和模型B都给出了满意的答复,安全第一。
image.png

NLP专业领域

单模型的回答质量很稳定,质量还可以。最后体验下NLP专业领域,模型是否能表现满意。如下:
image.png
这一上来,模型B就掉线了,模型A回答准确。重新刷新看看结果如何。如下:
image.png
这次的回答都还不错。试试手动输入的回答情况如何。如下:
image.png
模型A和模型B回答的很类似,但都不正确,应该是小女孩缺乏安全感。单模型体验看看。如下:
image.png
从结果来看,模型给出的回答是准确的。手动输入的情况如下:
image.png
显然,模型对于NLP的理解还待提高。

体验总结

中文竞技场大模型依托于魔塔社区,因此会有如下优势:

  1. 丰富的模型资源:在ModelScope社区中文竞技场中,提供了大量的模型资源,涵盖了多种领域,如自然语言处理、图像识别、语音合成等。这些模型资源有些是由社区用户分享的,有些是由官方提供的,可以满足不同用户的需求。
  2. 多样化的挑战活动:中文竞技场经常举办各种挑战活动,用户可以通过参加挑战活动来提升自己的技能和经验。这些挑战活动的难度不同,有些需要用户提交自己的模型代码和结果,有些则需要用户对指定的模型进行评估和优化。
  3. 详细的模型讨论区:在ModelScope社区中文竞技场中,每个模型都有一个专门的讨论区,用户可以在这里对模型进行讨论和交流。通过与其他用户的交流,我可以了解到不同的思路和方法,也可以得到一些实用的建议和帮助。
  4. 强大的模型评估工具:ModelScope社区中文竞技场提供了一个强大的模型评估工具,用户可以对不同的模型进行评估和比较。这个评估工具支持不同的评估指标,包括准确率、召回率、F1分数等,可以帮助用户更好地了解模型的性能。
  5. 丰富的学习资源:除了模型资源和挑战活动外,ModelScope社区中文竞技场还提供了丰富的在线学习资源,包括教程、视频和文档等。这些学习资源可以帮助新手快速入门,也可以帮助老手深入了解某个领域的知识。

但从此次模型评测结果来看,大模型需要走的路还很长,存在不小的差距和不足,如下:

  1. 社区规模较小:相比其他同类型的平台,ModelScope社区的规模相对较小。这使得用户可能无法找到足够数量的挑战伙伴或者得不到足够的社区支持。
  2. 技术支持不足:虽然ModelScope社区有详细的教程和解答,但是对于一些复杂的技术问题,用户可能会发现没有足够的技术支持。这使得一些新手用户可能会感到困惑。
  3. 模型质量不一:由于ModelScope社区中文竞技场是一个开放平台,任何人都可以上传自己的模型。因此,模型的质量可能存在较大的差异。有些模型可能存在错误或缺陷,影响用户的体验。
  4. 挑战公平性不足:在一些挑战活动中,由于缺乏有效的监管机制,有些用户可能会采用不公平的手段来获得胜利。这使得其他用户可能感到不满和不公。
  5. 学习资源更新缓慢:虽然ModelScope社区中文竞技场提供了丰富的在线学习资源,但是这些资源的更新速度可能比较缓慢。这使得一些新出现的技术和知识无法及时地得到反映,影响用户的学习效果。
  6. 模型训练有待加强:多数模型在手动输入问题的回答中质量很差,对于一些基本常识类的问题本不应该犯错的,可却频率很高,模型体验感不好。
目录
相关文章
|
1月前
|
自然语言处理 C语言 Python
中文竞技场大模型评测
介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。
65 7
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
493 42
|
自然语言处理 Python
中文大模型评测
中文大模型评测
792 3
|
自然语言处理
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
367 0
|
5月前
|
机器学习/深度学习 存储
百川智能发布超千亿大模型Baichuan3,中文评测超GPT-4
1月29日午间消息,百川智能宣布发布超千亿参数的大语言模型Baichuan 3。在 CMMLU、GAOKAO 和 AGI-Eval 等评测中,Baichuan 3 号称在中文任务上超越了 GPT-4。
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测
|
机器学习/深度学习 自然语言处理 测试技术
中文竞技场大模型评测体验报告
Modelscope是一个用于评估和分析深度学习模型的开源工具,它可以帮助研究人员和开发者对模型进行性能分析、可解释性分析和对比实验等。本次我体验了代码相关、知识常识和x写作创作相关这三个对话类型场景,下面是我的一些测试模型的分析。
429 19
|
自然语言处理 人工智能
中文竞技场大模型测评后续之模型自动对话
中文竞技场大模型测评延续中,模型自动对话场景测评
568 0
中文竞技场大模型测评后续之模型自动对话

热门文章

最新文章