中文竞技场大模型评测体验报告

简介: Modelscope是一个用于评估和分析深度学习模型的开源工具,它可以帮助研究人员和开发者对模型进行性能分析、可解释性分析和对比实验等。本次我体验了代码相关、知识常识和x写作创作相关这三个对话类型场景,下面是我的一些测试模型的分析。

Modelscope是一个用于评估和分析深度学习模型的开源工具,它可以帮助研究人员和开发者对模型进行性能分析、可解释性分析和对比实验等。本次我体验了代码相关、知识常识和x写作创作相关这三个对话类型场景,下面是我的一些测试模型的分析。
代码相关评测:
1.请分析以下代码的功能和实现过程,并尽量详细解释每行代码的作用:
def func(x):
if x % 2 == 0:
return x / 2
else:
return 3 * x + 1

data = 7
result = func(data)
print(result)
1.png
2.分析一下这段代码:
function fibonacci(n) {
if (n <= 1) {
return n;
}

let a = 0;
let b = 1;

for (let i = 2; i <= n; i++) {
let temp = a + b;
a = b;
b = temp;
}

return b;
}

console.log(fibonacci(5));
2.png
3.请解释以下错误信息的原因,并提供相应的建议。错误信息为:'TypeError: 'int' object is not callable'。
3.png
评测:这段回答中首先A意思理解错误,直接跑偏了;偏题这方面B比A要好的多,B说定义了一个函数func,它接受一个参数x,并根据x是否为偶数返回不同的结果。如果x是偶数,则返回x除以2的结果,否则返回3乘以x再加1的结果这段代码理解非常好,但是后面的代码打印出result变量的值,即7除以2的结果直接打回了原型,能理解意思,但是回答错误;问题2中,A的问答简单粗暴、直接给出最终答案;B则是先告诉你这些代码的含义,然后教你慢慢得出正确的答案;问题3中,B的解释还是比A稍多一些,可以看出模型A的准确性没有模型B高,而且A侧重于结果,B更侧重于过程。
中文游戏体验测评
1.4.jpg
2.5.jpg
3.6.png
评测:中文游戏方面可以看出来,ModelA给出的答案比较简洁明了,而ModelB答案比较完善,会提供历史场景等方便你理解成语。
写作相关
1.写下一段让读者继续阅读的故事,并在结尾适度悬念,引出新的情节。确保故事流畅、吸引人,让读者期待下一部分的发展。不要透露故事的结局。
7.png
2.对以下文本进行摘要生成:
华为智能手机Mate 40 Pro于2020年10月22日正式发布。该手机采用最新的麒麟9000芯片,配备6.76英寸曲面OLED屏幕,支持5G网络,并且搭载了5000mAh大电池。手机还具备40万像素前置摄像头和5000万像素主摄像头,可提供出色的拍摄体验。
请为以上文本生成摘要。
8.png
3.在一个风雨交加的夜晚,一位年轻的侦探收到了一个神秘的信件,里面写着一段密码。请使用你的智慧和分析能力,续写下面这段故事,揭开谜题的真相。
9.png
评测:ModelA在写作方面是要优于ModelB的,在场景2中生成摘要时,ModelA的简洁明了发挥到了极致,这时候ModelB的摘要显得有点过于冗余了,甚至不像个摘要,场景1中要求留下悬念,ModelA也把握得很好,ModelB则是直接给了一个结局,写作方面感觉ModelA表现佳。
结论
经过深入的体验和测评,每个模型在各个领域都有出色的表现,但也都有需要提升的部分,目前来看这些模型的价值是无限的,能给我们生活的方方面面带来极大的便利。

目录
相关文章
|
10月前
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
311 10
【中文竞技场】大模型深度体验与测评
|
10月前
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
|
10月前
|
算法 安全 测试技术
中文竞技场大模型体验报告
本次测评的主要目标是评估中文竞技场提供的大模型在写作创作相关、知识常识和代码相关方面的表现。我们进入“中文竞技场”体验了这些模型,并在以下方面进行了测试和评估。
200 30
|
10月前
|
自然语言处理
|
10月前
中文竞技场大模型体验评测分析
中文竞技场大模型体验
406 0
中文竞技场大模型体验评测分析
|
10月前
|
自然语言处理
「ModelScope」中文竞技场体验测评报告
体验大语言模型,并产出创作、代码相关、知识常识三个领域的评测报告
106 1
|
10月前
|
自然语言处理 UED
中文竞技场大模型体验
中文竞技场大模型体验
|
10月前
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
336 0
|
10月前
|
自然语言处理 知识图谱
中文竞技场模型体验
中文竞技场模型体验
336 0
|
10月前
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测