中文竞技场大测评

简介: 简述中文竞技场的几种场景的测评效果及操作体验

活动入口

这次的中文竞技场大模型评测活动入口:入口,内容很有趣,包含了写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域这6个领域的测评,涵盖的面很广,内容也很丰富,那么下面就开始我们的体验之旅吧。顺便说一下,这次的体验不需要复杂的操作步骤,你只需要输入你想知道的问题即可,测评上手无压力。

大模型评测

在开始大模型评测之前,首先提供一下大模型评测地址:地址 页面如图

image.png

下面开始正式测评中文竞技场大模型问题回复效果。

写作创作相关

这里我首先体验一下写作相关,因为自己平时也会写写博文,因此写作这方面体验一下写作效果如何。

第一个问题:七夕

image.png

第二个问题:缅北电诈

image.png

第三个问题:日本倾倒核废水

image.png

以上三个问题都处于写作创作相关领域下,相比而言,模型A(Model A: ziya-llama-13b-v1)的生成效果更好;而模型B(Model B: belle-llama-13b-2m-v1)对于写作创作领域的理解可能有差异,理论上对于不同的话题进行写作创作,不应需要和第一个话题关联。相关联的话那就是聊天一样的上下文,而不是写作创作相关领域了。

代码相关

作为Java开发者,对于代码相关的问题还是有挺多想问的,那么下面火速开始问答吧

第一个问题:生成一个学员对象

image.png

第二个问题:是一段代码

publicstaticvoidmain(String[] args) {
Stringa="22:00";
Stringb="07:00";
a=a.substring(0,a.indexOf(":"));
b=b.substring(0,b.indexOf(":"));
System.out.println(Integer.parseInt(a));
System.out.println(Integer.parseInt(b));
System.out.println(Integer.parseInt(b) <Integer.parseInt(a));
    }

image.png

第三个问题:Java实现冒泡算法

image.png

对于以上三个问题都处于代码相关领域下,相比而言,模型A(Model A: baichuan-13b-chat-v1)的生成效果没有模型B好,模型B(Model B: chatglm-6b-v2)对于一些基础的代码描述,可以直接生成相关的内容,另外模型A在第二个问题的执行过程中错误解析了代码中的内容,而模型B不但正确打印了代码执行结果,还详细分析了代码操作意义,更切合需要一些。

知识常识

对于知识常识能聊的方面就比较多,可以有很多想问的

第一个问题:为什么要工作

image.png

第二个问题:手机有什么用

image.png

第三个问题:为什么会下雨

image.png

第四个问题:什么是职场PUA

image.png

在知识常识领域上,模型A(Model A: baichuan-13b-chat-v1)和模型B(Model B: ChatPLUG-100Poison)对于知识常识问题的回答基本都在可理解范围,回答的都可以,内容虽不是完全相同,但是是从不同角度回答同一个问题,很不错。

中文游戏

下面开始体验中文游戏领域的大模型,看一下是否能达到预期

第一个问题:什么是 鱿鱼游戏

image.png

第二个问题:答非所问 两个模型的回复效果都不太好,可能是问题提问的不够详细

第三个问题:什么是 答非所问

image.png

第四个问题:和尚打伞-无法无天

image.png

在中文游戏领域,模型A(Model A: baichuan-13b-chat-v1)和模型B(Model B: moss-moon-003-sft-v1)对于部分问题不能返回想要的结果,另外对于一些尚未训练到的谚语,领个模型都报错了,每次error都会把页面卡死,我尝试了多次第四个问题都是这样的结果。

人类价值观

对于人类价值观领域的问题,直接上问题吧

第一个问题:什么是 好人不长久,坏人活千年

image.png

第二个问题:为什么说 傻人有傻福

image.png

第三个问题:什么是 长江破浪会有时,直挂云帆济沧海

image.png

第四个问题:为什么要做一个善良的人,而不是一个坏人

image.png

在人类价值观领域模型上,模型A(Model A: ChatPLUG-100Poison)的回答效果更准确一下,特别是第三个问题,模型B(Model B: ChatPLUG-initial)回答的对于原文的出处竟然都弄错了,因此来说模型A的效果更好一些。

最后一个NLP专业领域这个日常接触的不是很多,也测试了一些内容,这里就不再多写了,大家有兴趣的可以自行去体验哈。

模型自动对话

这里我体验了一下 火车站台 的自动对话,对话效果不是太好

image.png

餐馆场景的自动对话还是比较准确的

image.png

超市场景的自动对话也还可以

image.png

体验感受

对于这次的中文竞技场大模型评测中所提到的写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域这6个领域的体验,整体上效果还是不错的,通过模型A与模型B生成内容的比对,以及一些固定场景下自动对话的生成,为后续将大模型的训练成果运用与日常生活中提供素材,可以说不同场景下的对话内容的训练以及自动对话的生成,可以提供很多场景下的AI为顾客服务,单说模型提供的场景中

image.png

就很多方面了。不过目前各个场景的训练数据量不太多,希望后续可以有更多的场景支持以及可以针对不同的顾客问题提供精准的回答等方面来完善模型自动对话功能。

本次测评到这里也就结束了,整体的体验感受很不错,模型训练话成果也比较显著,赞一个。

相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
350 10
【中文竞技场】大模型深度体验与测评
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69971 5
|
人工智能 自然语言处理 测试技术
中文大模型体验测评系列(一)
本文主要通过体验中文竞技场大模型,并详细记录体验过程及感受。
99526 84
|
算法 安全 测试技术
中文竞技场大模型体验报告
本次测评的主要目标是评估中文竞技场提供的大模型在写作创作相关、知识常识和代码相关方面的表现。我们进入“中文竞技场”体验了这些模型,并在以下方面进行了测试和评估。
236 30
|
机器学习/深度学习 人工智能 JavaScript
Modelscope 中文竞技场的测评
Modelscope 是一种用于观察和分析模型的工具,它提供了一个直观的界面,使用户能够轻松地浏览和分析模型,而无需深入了解复杂的数学和编程。 以下简单和大家探讨一下Modelscope 中文竞技场的测试分享,将从写作创作相关、代码相关、人类价值观三个方面对进行综合测评,带大家多方面了解这一平台的综合实力。
510 2
|
数据采集 人工智能
对ModelScope 中的中文竞技场进行分析测评
ModelScope 是一款功能强大的人工智能模型,它在多个领域都有着广泛的应用
|
自然语言处理
「ModelScope」中文竞技场体验测评报告
体验大语言模型,并产出创作、代码相关、知识常识三个领域的评测报告
128 1
|
自然语言处理 程序员 数据库
用Modelscope 中文竞技场的测评体验分享
用Modelscope 中文竞技场的测评体验分享体验了三个场景,分别体验1系统默认的问题提交体验; 2.根据任务问题体验; 3.自主式提问题体验。就系统给出的答案进行评测。
2102 300
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1229 2
中文竞技场大模型测评
|
机器学习/深度学习 PyTorch 算法框架/工具
关于Modelscope 中文竞技场测评
Modelscope 是一款用于模型性能测评的开源工具,它提供了一套简便而强大的功能,帮助用户评估和比较不同机器学习模型的性能
370 22
关于Modelscope 中文竞技场测评