中文竞技场模型测评——针对写作创作、代码编写、知识常识相关的测评

简介: 本次主要是针对中文竞技场大模型的写作创作水平进行评测,考察续写、分析、总结等几个方面的能力。

1. 进入后界面如下:

image.png

规则如下:

  • 在文本框中输入一句话,两个不同的模型将同时生成回复
  • 尽量避免问 “hi” “你好” 等简单问题。如果没有合适的问题,请点击“↻ 换一个”,查看我们提供的问题样例
  • 模型的名字将在投票后展示。 含有模型本身信息的对话(如ChatGPT、openai、港中大(深圳))将被过滤且不计入排行榜
  • 点击“🗑️ 清除历史”开始新一轮模型自动对话

2. 对话类型分为6种,具体如下:

image.png

针对写作创作相关的测评

提交内容如下:

在一个寂静的夜晚,一位年轻的画家在工作室里创作一幅神秘的画作。画作呈现出一片美丽而神秘的森林,但在画的最后,画家却意外地中断了。请继续完成这幅画作,让我们看到画家的创作完整的一面。

生成内容如下:
image.png

显而易见,A只是进行了简单总结,但是B进行了一定的创作和扩充,所以说B优于A。

将B的内容复制下来,接着续写,内容如下:

image.png

生成内容如下:

image.png

奇怪的是,此次A进行了续写,但是B却只回复了已解决三个字,于是决定更换内容再次测试。

提交内容如下:

当他醒来时,周围是一片漆黑。他摸索着发现身体被柔软的绳索缚住,似乎被困在什么地方。面对这突如其来的境况,他该如何逃离束缚,找到出路呢?继续编写以下情节,描述他的冒险旅程。

生成内容如下:

image.png

此时,A进行了简单扩写,但是B的内容较为丰富和完整,且有一定的剧情性,所以说B优于A

可以初步推断出,在故事续写、剧情创作方面B略强于A。

再次更换测试内容,将问题重点从创作变为分析

提交内容如下:

在你的家乡举办一个国际会议,作为一名应用文写作专家,请起草一份招商引资函,向国内外企业家介绍会议内容、规模及福利,并阐述为什么他们应该参与此次会议。

生成内容如下:

image.png

从格式和内容方面来说,A与B的基本格式都符合要求,并且邀请函中都涵盖了地点、主题等关键内容,所以此次结果都很好

再次提交内容如下:

请就下列主题撰写一篇议论文:人工智能是否会替代人类工作?在你的论文中,讨论人工智能对就业市场的影响、人类的技能适应以及你对未来的看法。

生成内容如下:

image.png

A、B中均提出了明确的观点,但是B中考虑到的层面更多,且论证点更充足,给出了足够的依据,A中较为简洁但不够令人信服,此处B的回答优于A。

再次提交内容如下:

在社交媒体迅速发展的今天,写一篇关于如何合理利用社交媒体的实用文。你的目标读者是大学生,他们经常使用社交媒体,但可能缺乏正确的使用方法。请写一篇文章,向他们介绍如何在社交媒体上建立正面形象和维护个人隐私,同时充分利用媒体资源,扩大社交圈子,并避免被恶意利用。让读者在阅读你的文章后能够充满信心地正确使用社交媒体,并从中获得更多的益处。注意文章应做到观点明确、逻辑清晰、语言流畅。

生成内容如下:
image.png

A、B中均提出了明确的观点,但是B中考虑到的层面更多,且论证点更充足,给出了足够的依据,A中较为简洁但不够令人信服,此处B的回答优于A

可以初步推断出,在问题分析、主题论证等方面B略强于A。

最后对内容总结方面进行测试:

提交内容如下:

在寂静的夜晚,年轻的画家在工作室里专注地创作着一幅神秘的画作。他手中的画笔在画布上轻盈地舞动,仿佛在描绘着一个美丽而神秘的森林。但是,在画作的最后一笔落下时,画家却突然停了下来,陷入了沉思。他的眼神迷失在画作中,似乎完全沉浸在了自己的世界里。

过了好一会儿,画家才回过神来,拿起画笔,继续在画布上描绘。他的手法变得更加细腻,每一笔都充满了神秘的魔力。在他的画作中,森林变得更加绚丽多彩,光影的变化也更加细腻。最终,画家完成了这幅神秘的画作,它呈现出了一个充满生机和魔力的森林,让人们不禁为之惊叹。

这幅画作成为了画家的代表作,吸引了许多人前来欣赏。人们都被画家所创造的神秘森林所吸引,但是,他们也都对画家中断创作的原因感到好奇。有人说,画家可能在画作中发现了一些不为人知的秘密,而有人则认为,他可能是被自己的创作所吸引,完全沉浸在了自己的世界里。

无论是什么原因,这幅画作都成为了一个充满神秘和魔力的艺术品,让人们为之倾倒。总结这个故事的内容

生成内容如下:

image.png

A、B中均进行了一定程度上的总结,但A的总结拘泥于文段内容本身,并未自行得出结论,B虽然略显啰嗦,但将文段中的关键剧情进行了总结,并自主延伸了全段的中心主题,B更优于A。

根据本人的初步评测,在写作创作相关方面,B模型略胜于A模型(此评测结果仅供参考)

针对代码相关相关的测评

提交内容如下:

请使用以下常用库来完成以下任务:numpy、pandas、matplotlib。
任务:请编写代码,将一个包含10个元素的列表转换为numpy的ndarray,并计算该数组的平均值

生成内容如下:

image.png

其中,B采用python结合matplotlib生成的内容增加了详细的代码解释注释,能够更方便理解,A中采用python语言仅给出了平均值及其计算方法。双方均符合题意,在结果计算上A中给出了明确的结果,B中却并未给出,所以此处我认为A更加符合题意。

再次提交内容如下:

输入一个正整数 num,请你输出两个正整数 root 和 pwr,使得当 root 最小时 0 < pwr < 6 并且 root ** pwr 等于输入的正整数。(本题摘自Lincode)

生成内容如下

image.png

将A、B生成的答案分别在Lincode中提交,均无法通过,但B的解答更明确,且整体逻辑正确,A模型误解了题目本意。更换个简单点题目尝试。

提交内容如下:

字符串在编程语言里是十分常见的类型。在本题中,需要你设计一个简单的字符串类 MString,最后我们会调用该类中的 isEquivalent() 来判断两个字符串是否相等。给出你认为正确的python代码。

生成内容如下:

image.png

image.png

其代码均有一定的逻辑性,但是对于A中使用到了题目要求的isEquivalent() 来判断两个字符串是否相等,B中则是采用贪心算法来解决,在契合题意方面,A更优于B,但总体而言,在代码编写上并不理想

针对知识常识相关的测评

提交内容如下:

请问有什么生活产品能帮助我更方便地存储和组织我的日常用品?

生成内容如下:

image.png

A的答案确实令人忍俊不禁,此处明显B胜于A了。

提交内容如下:

请计算下列方程的解:2x + 5 = 13

生成内容如下:
image.png

很离谱。。。。搞的我有点测不下去了,小学计算题居然两边都做错了。。。算了,来整个活,我担心这两位GPU都给烧了。。。。

提交内容如下:

为什么每次陨石总是落在陨石坑里面?

生成内容如下:

image.png

B好歹还能解释一下,A是真的成高冷人设了。。。最后测一次了。。。

提交内容如下:

请解答以下数学问题:一个长方形的长是6厘米,宽是4厘米。计算出它的面积。

生成内容如下:

image.png

还好,小学数学题还是做对了,哈哈。

总的来说,这两个模型目前已经具备基本的创作功能,但还有很大的提升空间,期待能在未来越变越好。

相关文章
用 ChatGPT 编写英文技术文章要自己多审核,否则容易被严谨的同行喷
用 ChatGPT 编写英文技术文章要自己多审核,否则容易被严谨的同行喷
|
11月前
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
315 10
【中文竞技场】大模型深度体验与测评
|
10月前
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69856 5
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT必将在文档处理领域大有所为,未来以来,拭目以待【文末送书】
ChatGPT必将在文档处理领域大有所为,未来以来,拭目以待【文末送书】
17 0
|
人工智能
专门做研究的ChatGPT平台:你的答案完全来自论文,免费使用
专门做研究的ChatGPT平台:你的答案完全来自论文,免费使用
专门做研究的ChatGPT平台:你的答案完全来自论文,免费使用
|
2月前
|
人工智能 算法 数据挖掘
ChatGPT 调教日记(二):程序员转量化的背景知识
ChatGPT 调教日记(二):程序员转量化的背景知识
48 0
|
2月前
ChatGPT 之言情作家:第一章到第十一章
ChatGPT 之言情作家:第一章到第十一章
191 0
|
9月前
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1203 2
中文竞技场大模型测评
|
8月前
|
人工智能 监控 API
WritingGPT: 基于 ChatGPT 和 AutoGPT 打造个人写作团队
WritingGPT: 基于 ChatGPT 和 AutoGPT 打造个人写作团队
63 0
WritingGPT: 基于 ChatGPT 和 AutoGPT 打造个人写作团队
|
11月前
对中文竞技场模型的测评
了解并学习了MS大模型,接下来发表一些我的看法。
809 1
对中文竞技场模型的测评