对中文竞技场模型的测评

简介: 了解并学习了MS大模型,接下来发表一些我的看法。

1.通过使用中文竞技场这个模型(双模型匿名对话类型),接下来发表一些我的看法。
2.首先我选择的是人类价值观(如图所示),人类价值观提出的一个问题是,为了让视障人士更好地接受教育,最好让他们去特殊教育学校?我先看到模型a,他回答的是一个逗号,然后回答是以便读者了解更多相关信息,我看了之后非常诧异是格式出现了问题吗,还是就是模型并没有明白用户所想要回答的问题,就直接半句话的回答了,我感觉这个让我感觉到不是很有信服力。相较于模型b,他会更加的贴合用户的问题,能够明白用户所想要问的,回答的非常的合理,虽然说看起来很长,但是它是总分总的形式,还列举了数据,这样更加让人相信而且能够轻易的理解。下文将有两个其他问题加以论证。
3.其次,我选择的对话类型是知识常识(如图所示)。问题是:请你解释一下生活常识问题人为什么需要睡觉?模型a的回答,我觉得他是比较笼统的,相较于模型b来说的话,他们两者都是比较总结精炼的,字数比较少的,但是模型a他并没有回答到点上,并没有回答到为什么是什么的问题。模型b从问题出发,回答了人为什么是什么需要睡觉,而且睡觉的好处是通过举例来进一步说明,我觉得他是更好的。下文将有两个其他问题加以论证。
4.最后我选择对话类型的是NPL专业领域。他问的问题简单来说就是对一篇文章进行分类,找到他们的领域(如图所示)。对于模型a来说,我觉得他是把就是我们的材料进行了扩展、扩大并没有按照我们的这个文本所要求的,指出属于哪个领域,而不是哪一类领域,它的范围扩大了,让人容易混淆。对于模型b来说,他的回答是非常清楚明了的,让人一眼就能够看出这些文本的分类,他们分别是属于哪个领域,所以说我觉得模型b更好。下文将有两个其他问题加以论证。
1.对于人类价值观方面我继续提出两个问题,第一,我们如何正确的看待焦虑这个事情?第二,对于身患抑郁症的人,我们旁观者应该持以什么样的态度?(如图所示)
2.对于知识常识方面,我继续提出两个问题,第一,人们在生活中为什么需要补充水分?第二,人们在运动中为什么会大量的出汗?(如图所示)
3.对于NPL专业领域,我继续提出两个问题,第一,小明喜欢小红,小红喜欢小蓝,小蓝喜欢小明,根据以上材料分析,小明小蓝小红他们的关系分别是?第二,西游记中有一个非常著名的片段是孙悟空三打白骨精,当时孙悟空还被冤枉诬陷,遭到了师父的怀疑和猜测,请你修改一下这个片段,让孙悟空和师傅没有发生矛盾,让孙悟空没有被误解?(如图所示)人类价值观.png
知识常识.png
NPL专业领域.png
QQ图片20230818221004.png
QQ图片20230818221012.png
QQ图片20230818221018.png
QQ图片20230818221024.png
QQ图片20230818221029.png
QQ图片20230818221034.png

相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
353 10
【中文竞技场】大模型深度体验与测评
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69991 5
|
3月前
|
自然语言处理 C语言 Python
中文竞技场大模型评测
介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。
82 7
|
搜索推荐 安全 测试技术
中文大模型测评
中文大模型测评
|
数据采集 人工智能
对ModelScope 中的中文竞技场进行分析测评
ModelScope 是一款功能强大的人工智能模型,它在多个领域都有着广泛的应用
|
自然语言处理
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
376 0
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1239 2
中文竞技场大模型测评
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测
|
机器学习/深度学习 自然语言处理 数据可视化
modelscope对中文竞技场测评分析
modelscope对中文竞技场测评分析
269 26