中文竞技场大模型测评

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 代码相关、写作创作相关、中文游戏

中文竞技场大模型测评

此次参与“中文竞技场”体验中文大语言模型,本次测评以在代码相关、写作创作相关、中文游戏三方面的模型进行了测评。

  1. 中文游戏模型方面
    参与问题包含以下三个问题:
    问题1:请解读以下成语并给出其中蕴含的寓意:“围魏救赵".回答如图
    64af08b365e78d1d4b6e68a9cb034e2.png
    问题解读内容不切合题意,不知道从哪里获取的信息,差评(例如A模型:指为了攻击魏国的敌人,而先攻击赵国的盟友。B模型:赵国向邻国齐国求救,但齐国不愿意出兵帮助赵国。赵国又向邻国楚国求救,但楚国也不愿意出兵。最后,赵国向邻国韩国求救,韩国同意派兵救援。)
    问题2:请解读以下成语的含义并给出例句:五十步笑百步。回答如图
    db141602d8c8e2b5bbf877cddab4ad7.png
    问题解读内容同样不切合题意,胡说八道(例如A模型回答例句与题意丝毫不搭:例句: 小明因为自己的错误而自以为是,而小红却能够看到他的错误,并嘲笑他。B模型与实际丝毫不搭:意思是在某个方面比别人强,但仍然不如最优秀的人。这个成语源自于《论语》中的故事。)
    问题3:使用以下谚语:"授之以鱼不如授之以渔”,写一段说明谚语含义的故事。回答如图855ce4e06d80e701c9622eb4838d793.png
    此处问题回答模型A好些,符合题意,模型B报错,不做评判
    057e8772b71d4d2dedbb1d8c9cb49c7.png

综上对比,相对来讲此两个模型对于中文游戏模型方面两模型相比模型A略显突出,但其实都并不出色

  1. 写作创作相关模型方面
    参与问题包含以下三个问题:
    问题1:请扮演一个古代武将,在一场紧张的战斗中发表鼓舞士气的演讲。在演讲中要提到对敌人力量有信心,坚决捍卫家园,以及调动战士们的勇气和决心。回答如图
    de6bd9c8bfd017d9d104620829246a5.png
    此处问题回答都写出了题意中要求的鼓舞士气,坚决捍卫,风格不同,平分秋色
    问题2:请依据以下的引子续写一篇故事: 在一片郁郁葱葱的森林中,有一座古老的石塔。这座石塔异常神秘,传闻里面隐藏着一件珍贵的宝物。然而,许多勇士曾经进入石塔,却再也没有出来。你是一名勇敢的冒险者,请继续这个故事,揭开石塔的秘密,并决定你的命运。回答如图

15411e9fed8dbec9a66b2639b9e6ff8.png
此处问题回答模型B写了半天,毫无逻辑,通过内容可看出丝毫没有理解问题的意思。模型A写的很不错。很棒!!! !
问题3:请以一名古代武林高手的身份,为观众讲述你历经训练和战斗的心路历程。你可以描述你的成长经历、遇到的困难以及如何突破自己的局限。回答如图
ecc0c654536b4978e73b56f60a00a40.png
此处问题回答两模型回答相比较,A模型更出色些
综上对比,相对来讲此两个模型对于写作创作相关模型A模型更好

  1. 代码相关模型方面
    参与问题包含以下三个问题:
    问题1:请使用以下常用库之一,查询如何在Python中进行文件操作:os、shutil、pathlib。回答如图
    35af260966fa9807611930f7efde81a.png
    此处问题回答对于模型B,不知道引入这个shutil的目的,答案没有对shutil进行任何调用。相对来讲模型A更出色些
    问题2:请解释以下错误信息的原因:
    错误信息:'IndexError: list index out of range'
    目标:你需要通过分析错误信息来解释为什么会出现这个错误。回答如图

    8db364d25ef5072eb01536a9d5205d3.png
    此处问题回答模型A报错,不予评价。模型B写的基本符合
    问题3:请使用Python代码编写一个邮件定时发送。回答如图
    8db364d25ef5072eb01536a9d5205d3.png
    此处问题回答模型A报错,不予评价。模型B写的基本符合
    deb65466740b913208fe95fb6845b86.png

综上对比,相对来讲此两个模型对于代码相关模型方面两模型相比A模型报错不行,B模型可以

综上内容,由于对比相对来讲是两两模型对比。虽存在局限性,但部分问题仍需面对。对于中文游戏成语解读,回答并不出色,三个问题,其中两个不符合题意,内容回答可以算是胡编乱造;模型使用存在报错,可能网络或其他方面易受限。好的方面部分模型故事排版,语句使用很具参考价值;代码处理方面使用效果还不错。

目录
相关文章
|
9月前
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69812 5
|
10月前
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
297 10
【中文竞技场】大模型深度体验与测评
|
10月前
|
人工智能 自然语言处理 测试技术
中文大模型体验测评系列(一)
本文主要通过体验中文竞技场大模型,并详细记录体验过程及感受。
99330 27
|
10月前
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
324 0
|
10月前
|
自然语言处理
|
10月前
|
数据采集 人工智能
对ModelScope 中的中文竞技场进行分析测评
ModelScope 是一款功能强大的人工智能模型,它在多个领域都有着广泛的应用
|
8月前
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1193 2
中文竞技场大模型测评
|
9月前
|
Java Python
中文竞技场评测
中文竞技场大模型评测
|
9月前
|
人工智能
中文竞技场大模型评测
中文竞技场大模型评测
1108 0
中文竞技场大模型评测
|
10月前
中文竞技场-大模型测评篇
中文竞技场模型体验
649 0