中文竞技场模型测评——针对写作创作、代码编写、知识常识相关的测评

简介: 本次主要是针对中文竞技场大模型的写作创作水平进行评测,考察续写、分析、总结等几个方面的能力。

1. 进入后界面如下:

image.png

规则如下:

  • 在文本框中输入一句话,两个不同的模型将同时生成回复
  • 尽量避免问 “hi” “你好” 等简单问题。如果没有合适的问题,请点击“↻ 换一个”,查看我们提供的问题样例
  • 模型的名字将在投票后展示。 含有模型本身信息的对话(如ChatGPT、openai、港中大(深圳))将被过滤且不计入排行榜
  • 点击“🗑️ 清除历史”开始新一轮模型自动对话

2. 对话类型分为6种,具体如下:

image.png

针对写作创作相关的测评

提交内容如下:

在一个寂静的夜晚,一位年轻的画家在工作室里创作一幅神秘的画作。画作呈现出一片美丽而神秘的森林,但在画的最后,画家却意外地中断了。请继续完成这幅画作,让我们看到画家的创作完整的一面。

生成内容如下:
image.png

显而易见,A只是进行了简单总结,但是B进行了一定的创作和扩充,所以说B优于A。

将B的内容复制下来,接着续写,内容如下:

image.png

生成内容如下:

image.png

奇怪的是,此次A进行了续写,但是B却只回复了已解决三个字,于是决定更换内容再次测试。

提交内容如下:

当他醒来时,周围是一片漆黑。他摸索着发现身体被柔软的绳索缚住,似乎被困在什么地方。面对这突如其来的境况,他该如何逃离束缚,找到出路呢?继续编写以下情节,描述他的冒险旅程。

生成内容如下:

image.png

此时,A进行了简单扩写,但是B的内容较为丰富和完整,且有一定的剧情性,所以说B优于A

可以初步推断出,在故事续写、剧情创作方面B略强于A。

再次更换测试内容,将问题重点从创作变为分析

提交内容如下:

在你的家乡举办一个国际会议,作为一名应用文写作专家,请起草一份招商引资函,向国内外企业家介绍会议内容、规模及福利,并阐述为什么他们应该参与此次会议。

生成内容如下:

image.png

从格式和内容方面来说,A与B的基本格式都符合要求,并且邀请函中都涵盖了地点、主题等关键内容,所以此次结果都很好

再次提交内容如下:

请就下列主题撰写一篇议论文:人工智能是否会替代人类工作?在你的论文中,讨论人工智能对就业市场的影响、人类的技能适应以及你对未来的看法。

生成内容如下:

image.png

A、B中均提出了明确的观点,但是B中考虑到的层面更多,且论证点更充足,给出了足够的依据,A中较为简洁但不够令人信服,此处B的回答优于A。

再次提交内容如下:

在社交媒体迅速发展的今天,写一篇关于如何合理利用社交媒体的实用文。你的目标读者是大学生,他们经常使用社交媒体,但可能缺乏正确的使用方法。请写一篇文章,向他们介绍如何在社交媒体上建立正面形象和维护个人隐私,同时充分利用媒体资源,扩大社交圈子,并避免被恶意利用。让读者在阅读你的文章后能够充满信心地正确使用社交媒体,并从中获得更多的益处。注意文章应做到观点明确、逻辑清晰、语言流畅。

生成内容如下:
image.png

A、B中均提出了明确的观点,但是B中考虑到的层面更多,且论证点更充足,给出了足够的依据,A中较为简洁但不够令人信服,此处B的回答优于A

可以初步推断出,在问题分析、主题论证等方面B略强于A。

最后对内容总结方面进行测试:

提交内容如下:

在寂静的夜晚,年轻的画家在工作室里专注地创作着一幅神秘的画作。他手中的画笔在画布上轻盈地舞动,仿佛在描绘着一个美丽而神秘的森林。但是,在画作的最后一笔落下时,画家却突然停了下来,陷入了沉思。他的眼神迷失在画作中,似乎完全沉浸在了自己的世界里。

过了好一会儿,画家才回过神来,拿起画笔,继续在画布上描绘。他的手法变得更加细腻,每一笔都充满了神秘的魔力。在他的画作中,森林变得更加绚丽多彩,光影的变化也更加细腻。最终,画家完成了这幅神秘的画作,它呈现出了一个充满生机和魔力的森林,让人们不禁为之惊叹。

这幅画作成为了画家的代表作,吸引了许多人前来欣赏。人们都被画家所创造的神秘森林所吸引,但是,他们也都对画家中断创作的原因感到好奇。有人说,画家可能在画作中发现了一些不为人知的秘密,而有人则认为,他可能是被自己的创作所吸引,完全沉浸在了自己的世界里。

无论是什么原因,这幅画作都成为了一个充满神秘和魔力的艺术品,让人们为之倾倒。总结这个故事的内容

生成内容如下:

image.png

A、B中均进行了一定程度上的总结,但A的总结拘泥于文段内容本身,并未自行得出结论,B虽然略显啰嗦,但将文段中的关键剧情进行了总结,并自主延伸了全段的中心主题,B更优于A。

根据本人的初步评测,在写作创作相关方面,B模型略胜于A模型(此评测结果仅供参考)

针对代码相关相关的测评

提交内容如下:

请使用以下常用库来完成以下任务:numpy、pandas、matplotlib。
任务:请编写代码,将一个包含10个元素的列表转换为numpy的ndarray,并计算该数组的平均值

生成内容如下:

image.png

其中,B采用python结合matplotlib生成的内容增加了详细的代码解释注释,能够更方便理解,A中采用python语言仅给出了平均值及其计算方法。双方均符合题意,在结果计算上A中给出了明确的结果,B中却并未给出,所以此处我认为A更加符合题意。

再次提交内容如下:

输入一个正整数 num,请你输出两个正整数 root 和 pwr,使得当 root 最小时 0 < pwr < 6 并且 root ** pwr 等于输入的正整数。(本题摘自Lincode)

生成内容如下

image.png

将A、B生成的答案分别在Lincode中提交,均无法通过,但B的解答更明确,且整体逻辑正确,A模型误解了题目本意。更换个简单点题目尝试。

提交内容如下:

字符串在编程语言里是十分常见的类型。在本题中,需要你设计一个简单的字符串类 MString,最后我们会调用该类中的 isEquivalent() 来判断两个字符串是否相等。给出你认为正确的python代码。

生成内容如下:

image.png

image.png

其代码均有一定的逻辑性,但是对于A中使用到了题目要求的isEquivalent() 来判断两个字符串是否相等,B中则是采用贪心算法来解决,在契合题意方面,A更优于B,但总体而言,在代码编写上并不理想

针对知识常识相关的测评

提交内容如下:

请问有什么生活产品能帮助我更方便地存储和组织我的日常用品?

生成内容如下:

image.png

A的答案确实令人忍俊不禁,此处明显B胜于A了。

提交内容如下:

请计算下列方程的解:2x + 5 = 13

生成内容如下:
image.png

很离谱。。。。搞的我有点测不下去了,小学计算题居然两边都做错了。。。算了,来整个活,我担心这两位GPU都给烧了。。。。

提交内容如下:

为什么每次陨石总是落在陨石坑里面?

生成内容如下:

image.png

B好歹还能解释一下,A是真的成高冷人设了。。。最后测一次了。。。

提交内容如下:

请解答以下数学问题:一个长方形的长是6厘米,宽是4厘米。计算出它的面积。

生成内容如下:

image.png

还好,小学数学题还是做对了,哈哈。

总的来说,这两个模型目前已经具备基本的创作功能,但还有很大的提升空间,期待能在未来越变越好。

相关文章
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT 和文心一言哪个更好用?
ChatGPT 和文心一言哪个更好用?
140 1
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
350 10
【中文竞技场】大模型深度体验与测评
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69971 5
|
人工智能 自然语言处理 安全
【网安AIGC专题10.19】论文3代码生成:ChatGPT+自协作代码生成+角色扮演(分析员、程序员、测试员)+消融实验、用于MBPP+HumanEval数据集
【网安AIGC专题10.19】论文3代码生成:ChatGPT+自协作代码生成+角色扮演(分析员、程序员、测试员)+消融实验、用于MBPP+HumanEval数据集
173 0
|
1月前
|
人工智能 数据处理
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 28 章:圣杯 = 专家 + ChatGPT 的协同作用
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 28 章:圣杯 = 专家 + ChatGPT 的协同作用
|
3月前
|
存储 Rust 安全
通义灵码代码搜索功能的前沿性研究论文被软件工程国际顶会 FSE 录用
阿里云通义灵码团队与重庆大学合作的研究论文被 FSE Industry 2024 (CCF A) 录用,该论文通过对阿里云开发的智能编码插件进行实证调查,主要探讨了在智能编码助手中的代码搜索问题,点击本文查看论文详解。
7295 12
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT必将在文档处理领域大有所为,未来以来,拭目以待【文末送书】
ChatGPT必将在文档处理领域大有所为,未来以来,拭目以待【文末送书】
60 0
|
算法 安全 测试技术
中文竞技场大模型体验报告
本次测评的主要目标是评估中文竞技场提供的大模型在写作创作相关、知识常识和代码相关方面的表现。我们进入“中文竞技场”体验了这些模型,并在以下方面进行了测试和评估。
236 30
|
6月前
|
人工智能 算法 数据挖掘
ChatGPT 调教日记(二):程序员转量化的背景知识
ChatGPT 调教日记(二):程序员转量化的背景知识
65 0
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1229 2
中文竞技场大模型测评