中文竞技场大模型评测体验报告

简介: Modelscope是一个用于评估和分析深度学习模型的开源工具,它可以帮助研究人员和开发者对模型进行性能分析、可解释性分析和对比实验等。本次我体验了代码相关、知识常识和x写作创作相关这三个对话类型场景,下面是我的一些测试模型的分析。

Modelscope是一个用于评估和分析深度学习模型的开源工具,它可以帮助研究人员和开发者对模型进行性能分析、可解释性分析和对比实验等。本次我体验了代码相关、知识常识和x写作创作相关这三个对话类型场景,下面是我的一些测试模型的分析。
代码相关评测:
1.请分析以下代码的功能和实现过程,并尽量详细解释每行代码的作用:
def func(x):
if x % 2 == 0:
return x / 2
else:
return 3 * x + 1

data = 7
result = func(data)
print(result)
1.png
2.分析一下这段代码:
function fibonacci(n) {
if (n <= 1) {
return n;
}

let a = 0;
let b = 1;

for (let i = 2; i <= n; i++) {
let temp = a + b;
a = b;
b = temp;
}

return b;
}

console.log(fibonacci(5));
2.png
3.请解释以下错误信息的原因,并提供相应的建议。错误信息为:'TypeError: 'int' object is not callable'。
3.png
评测:这段回答中首先A意思理解错误,直接跑偏了;偏题这方面B比A要好的多,B说定义了一个函数func,它接受一个参数x,并根据x是否为偶数返回不同的结果。如果x是偶数,则返回x除以2的结果,否则返回3乘以x再加1的结果这段代码理解非常好,但是后面的代码打印出result变量的值,即7除以2的结果直接打回了原型,能理解意思,但是回答错误;问题2中,A的问答简单粗暴、直接给出最终答案;B则是先告诉你这些代码的含义,然后教你慢慢得出正确的答案;问题3中,B的解释还是比A稍多一些,可以看出模型A的准确性没有模型B高,而且A侧重于结果,B更侧重于过程。
中文游戏体验测评
1.4.jpg
2.5.jpg
3.6.png
评测:中文游戏方面可以看出来,ModelA给出的答案比较简洁明了,而ModelB答案比较完善,会提供历史场景等方便你理解成语。
写作相关
1.写下一段让读者继续阅读的故事,并在结尾适度悬念,引出新的情节。确保故事流畅、吸引人,让读者期待下一部分的发展。不要透露故事的结局。
7.png
2.对以下文本进行摘要生成:
华为智能手机Mate 40 Pro于2020年10月22日正式发布。该手机采用最新的麒麟9000芯片,配备6.76英寸曲面OLED屏幕,支持5G网络,并且搭载了5000mAh大电池。手机还具备40万像素前置摄像头和5000万像素主摄像头,可提供出色的拍摄体验。
请为以上文本生成摘要。
8.png
3.在一个风雨交加的夜晚,一位年轻的侦探收到了一个神秘的信件,里面写着一段密码。请使用你的智慧和分析能力,续写下面这段故事,揭开谜题的真相。
9.png
评测:ModelA在写作方面是要优于ModelB的,在场景2中生成摘要时,ModelA的简洁明了发挥到了极致,这时候ModelB的摘要显得有点过于冗余了,甚至不像个摘要,场景1中要求留下悬念,ModelA也把握得很好,ModelB则是直接给了一个结局,写作方面感觉ModelA表现佳。
结论
经过深入的体验和测评,每个模型在各个领域都有出色的表现,但也都有需要提升的部分,目前来看这些模型的价值是无限的,能给我们生活的方方面面带来极大的便利。

目录
相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
350 10
【中文竞技场】大模型深度体验与测评
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69970 5
|
2月前
|
自然语言处理 C语言 Python
中文竞技场大模型评测
介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。
73 7
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
498 42
|
算法 安全 测试技术
中文竞技场大模型体验报告
本次测评的主要目标是评估中文竞技场提供的大模型在写作创作相关、知识常识和代码相关方面的表现。我们进入“中文竞技场”体验了这些模型,并在以下方面进行了测试和评估。
236 30
|
自然语言处理
|
自然语言处理
「ModelScope」中文竞技场体验测评报告
体验大语言模型,并产出创作、代码相关、知识常识三个领域的评测报告
128 1
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
368 0
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1229 2
中文竞技场大模型测评