中文竞技场模型测评——针对写作创作、代码编写、知识常识相关的测评-阿里云开发者社区

中文竞技场模型测评——针对写作创作、代码编写、知识常识相关的测评

2023-08-16 1656

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本次主要是针对中文竞技场大模型的写作创作水平进行评测，考察续写、分析、总结等几个方面的能力。

1. 进入后界面如下：

规则如下：

在文本框中输入一句话，两个不同的模型将同时生成回复
尽量避免问 “hi” “你好” 等简单问题。如果没有合适的问题，请点击“↻ 换一个”，查看我们提供的问题样例
模型的名字将在投票后展示。含有模型本身信息的对话（如ChatGPT、openai、港中大（深圳））将被过滤且不计入排行榜
点击“🗑️ 清除历史”开始新一轮模型自动对话

2. 对话类型分为6种，具体如下：

针对写作创作相关的测评

提交内容如下：

在一个寂静的夜晚，一位年轻的画家在工作室里创作一幅神秘的画作。画作呈现出一片美丽而神秘的森林，但在画的最后，画家却意外地中断了。请继续完成这幅画作，让我们看到画家的创作完整的一面。

生成内容如下：

显而易见，A只是进行了简单总结，但是B进行了一定的创作和扩充，所以说B优于A。

将B的内容复制下来，接着续写，内容如下：

生成内容如下：

奇怪的是，此次A进行了续写，但是B却只回复了已解决三个字，于是决定更换内容再次测试。

提交内容如下：

当他醒来时，周围是一片漆黑。他摸索着发现身体被柔软的绳索缚住，似乎被困在什么地方。面对这突如其来的境况，他该如何逃离束缚，找到出路呢？继续编写以下情节，描述他的冒险旅程。

生成内容如下：

此时，A进行了简单扩写，但是B的内容较为丰富和完整，且有一定的剧情性，所以说B优于A。

可以初步推断出，在故事续写、剧情创作方面B略强于A。

再次更换测试内容，将问题重点从创作变为分析。

提交内容如下：

在你的家乡举办一个国际会议，作为一名应用文写作专家，请起草一份招商引资函，向国内外企业家介绍会议内容、规模及福利，并阐述为什么他们应该参与此次会议。

生成内容如下：

从格式和内容方面来说，A与B的基本格式都符合要求，并且邀请函中都涵盖了地点、主题等关键内容，所以此次结果都很好。

再次提交内容如下：

请就下列主题撰写一篇议论文：人工智能是否会替代人类工作？在你的论文中，讨论人工智能对就业市场的影响、人类的技能适应以及你对未来的看法。

生成内容如下：

A、B中均提出了明确的观点，但是B中考虑到的层面更多，且论证点更充足，给出了足够的依据，A中较为简洁但不够令人信服，此处B的回答优于A。

再次提交内容如下：

在社交媒体迅速发展的今天，写一篇关于如何合理利用社交媒体的实用文。你的目标读者是大学生，他们经常使用社交媒体，但可能缺乏正确的使用方法。请写一篇文章，向他们介绍如何在社交媒体上建立正面形象和维护个人隐私，同时充分利用媒体资源，扩大社交圈子，并避免被恶意利用。让读者在阅读你的文章后能够充满信心地正确使用社交媒体，并从中获得更多的益处。注意文章应做到观点明确、逻辑清晰、语言流畅。

生成内容如下：

A、B中均提出了明确的观点，但是B中考虑到的层面更多，且论证点更充足，给出了足够的依据，A中较为简洁但不够令人信服，此处B的回答优于A

可以初步推断出，在问题分析、主题论证等方面B略强于A。

最后对内容总结方面进行测试：

提交内容如下：

在寂静的夜晚，年轻的画家在工作室里专注地创作着一幅神秘的画作。他手中的画笔在画布上轻盈地舞动，仿佛在描绘着一个美丽而神秘的森林。但是，在画作的最后一笔落下时，画家却突然停了下来，陷入了沉思。他的眼神迷失在画作中，似乎完全沉浸在了自己的世界里。

过了好一会儿，画家才回过神来，拿起画笔，继续在画布上描绘。他的手法变得更加细腻，每一笔都充满了神秘的魔力。在他的画作中，森林变得更加绚丽多彩，光影的变化也更加细腻。最终，画家完成了这幅神秘的画作，它呈现出了一个充满生机和魔力的森林，让人们不禁为之惊叹。

这幅画作成为了画家的代表作，吸引了许多人前来欣赏。人们都被画家所创造的神秘森林所吸引，但是，他们也都对画家中断创作的原因感到好奇。有人说，画家可能在画作中发现了一些不为人知的秘密，而有人则认为，他可能是被自己的创作所吸引，完全沉浸在了自己的世界里。

无论是什么原因，这幅画作都成为了一个充满神秘和魔力的艺术品，让人们为之倾倒。总结这个故事的内容

生成内容如下：

A、B中均进行了一定程度上的总结，但A的总结拘泥于文段内容本身，并未自行得出结论，B虽然略显啰嗦，但将文段中的关键剧情进行了总结，并自主延伸了全段的中心主题，B更优于A。

根据本人的初步评测，在写作创作相关方面，B模型略胜于A模型（此评测结果仅供参考）

针对代码相关相关的测评

提交内容如下：

请使用以下常用库来完成以下任务：numpy、pandas、matplotlib。
任务：请编写代码，将一个包含10个元素的列表转换为numpy的ndarray，并计算该数组的平均值

生成内容如下：

其中，B采用python结合matplotlib生成的内容增加了详细的代码解释注释，能够更方便理解，A中采用python语言仅给出了平均值及其计算方法。双方均符合题意，在结果计算上A中给出了明确的结果，B中却并未给出，所以此处我认为A更加符合题意。

再次提交内容如下：

输入一个正整数 num，请你输出两个正整数 root 和 pwr，使得当 root 最小时 0 < pwr < 6 并且 root ** pwr 等于输入的正整数。（本题摘自Lincode）

生成内容如下

将A、B生成的答案分别在Lincode中提交,均无法通过，但B的解答更明确，且整体逻辑正确，A模型误解了题目本意。更换个简单点题目尝试。

提交内容如下：

字符串在编程语言里是十分常见的类型。在本题中，需要你设计一个简单的字符串类 MString，最后我们会调用该类中的 isEquivalent() 来判断两个字符串是否相等。给出你认为正确的python代码。

生成内容如下:

其代码均有一定的逻辑性，但是对于A中使用到了题目要求的isEquivalent() 来判断两个字符串是否相等，B中则是采用贪心算法来解决，在契合题意方面，A更优于B，但总体而言，在代码编写上并不理想。

针对知识常识相关的测评

提交内容如下：

请问有什么生活产品能帮助我更方便地存储和组织我的日常用品？

生成内容如下:

A的答案确实令人忍俊不禁，此处明显B胜于A了。

提交内容如下：

请计算下列方程的解：2x + 5 = 13

生成内容如下:

很离谱。。。。搞的我有点测不下去了，小学计算题居然两边都做错了。。。算了，来整个活，我担心这两位GPU都给烧了。。。。

提交内容如下：

为什么每次陨石总是落在陨石坑里面？

生成内容如下:

B好歹还能解释一下，A是真的成高冷人设了。。。最后测一次了。。。

提交内容如下：

请解答以下数学问题：一个长方形的长是6厘米，宽是4厘米。计算出它的面积。

生成内容如下:

还好，小学数学题还是做对了，哈哈。

中文竞技场模型测评——针对写作创作、代码编写、知识常识相关的测评

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

中文竞技场模型测评——针对写作创作、代码编写、知识常识相关的测评

热门文章

最新文章

相关课程

相关电子书

相关实验场景