1. 进入后界面如下:
规则如下:
- 在文本框中输入一句话,两个不同的模型将同时生成回复
- 尽量避免问 “hi” “你好” 等简单问题。如果没有合适的问题,请点击“↻ 换一个”,查看我们提供的问题样例
- 模型的名字将在投票后展示。 含有模型本身信息的对话(如ChatGPT、openai、港中大(深圳))将被过滤且不计入排行榜
- 点击“🗑️ 清除历史”开始新一轮模型自动对话
2. 对话类型分为6种,具体如下:
针对写作创作相关的测评
提交内容如下:
在一个寂静的夜晚,一位年轻的画家在工作室里创作一幅神秘的画作。画作呈现出一片美丽而神秘的森林,但在画的最后,画家却意外地中断了。请继续完成这幅画作,让我们看到画家的创作完整的一面。
生成内容如下:
显而易见,A只是进行了简单总结,但是B进行了一定的创作和扩充,所以说B优于A。
将B的内容复制下来,接着续写,内容如下:
生成内容如下:
奇怪的是,此次A进行了续写,但是B却只回复了已解决三个字,于是决定更换内容再次测试。
提交内容如下:
当他醒来时,周围是一片漆黑。他摸索着发现身体被柔软的绳索缚住,似乎被困在什么地方。面对这突如其来的境况,他该如何逃离束缚,找到出路呢?继续编写以下情节,描述他的冒险旅程。
生成内容如下:
此时,A进行了简单扩写,但是B的内容较为丰富和完整,且有一定的剧情性,所以说B优于A。
可以初步推断出,在故事续写、剧情创作方面B略强于A。
再次更换测试内容,将问题重点从创作变为分析。
提交内容如下:
在你的家乡举办一个国际会议,作为一名应用文写作专家,请起草一份招商引资函,向国内外企业家介绍会议内容、规模及福利,并阐述为什么他们应该参与此次会议。
生成内容如下:
从格式和内容方面来说,A与B的基本格式都符合要求,并且邀请函中都涵盖了地点、主题等关键内容,所以此次结果都很好。
再次提交内容如下:
请就下列主题撰写一篇议论文:人工智能是否会替代人类工作?在你的论文中,讨论人工智能对就业市场的影响、人类的技能适应以及你对未来的看法。
生成内容如下:
A、B中均提出了明确的观点,但是B中考虑到的层面更多,且论证点更充足,给出了足够的依据,A中较为简洁但不够令人信服,此处B的回答优于A。
再次提交内容如下:
在社交媒体迅速发展的今天,写一篇关于如何合理利用社交媒体的实用文。你的目标读者是大学生,他们经常使用社交媒体,但可能缺乏正确的使用方法。请写一篇文章,向他们介绍如何在社交媒体上建立正面形象和维护个人隐私,同时充分利用媒体资源,扩大社交圈子,并避免被恶意利用。让读者在阅读你的文章后能够充满信心地正确使用社交媒体,并从中获得更多的益处。注意文章应做到观点明确、逻辑清晰、语言流畅。
生成内容如下:
A、B中均提出了明确的观点,但是B中考虑到的层面更多,且论证点更充足,给出了足够的依据,A中较为简洁但不够令人信服,此处B的回答优于A
可以初步推断出,在问题分析、主题论证等方面B略强于A。
最后对内容总结方面进行测试:
提交内容如下:
在寂静的夜晚,年轻的画家在工作室里专注地创作着一幅神秘的画作。他手中的画笔在画布上轻盈地舞动,仿佛在描绘着一个美丽而神秘的森林。但是,在画作的最后一笔落下时,画家却突然停了下来,陷入了沉思。他的眼神迷失在画作中,似乎完全沉浸在了自己的世界里。
过了好一会儿,画家才回过神来,拿起画笔,继续在画布上描绘。他的手法变得更加细腻,每一笔都充满了神秘的魔力。在他的画作中,森林变得更加绚丽多彩,光影的变化也更加细腻。最终,画家完成了这幅神秘的画作,它呈现出了一个充满生机和魔力的森林,让人们不禁为之惊叹。
这幅画作成为了画家的代表作,吸引了许多人前来欣赏。人们都被画家所创造的神秘森林所吸引,但是,他们也都对画家中断创作的原因感到好奇。有人说,画家可能在画作中发现了一些不为人知的秘密,而有人则认为,他可能是被自己的创作所吸引,完全沉浸在了自己的世界里。
无论是什么原因,这幅画作都成为了一个充满神秘和魔力的艺术品,让人们为之倾倒。总结这个故事的内容
生成内容如下:
A、B中均进行了一定程度上的总结,但A的总结拘泥于文段内容本身,并未自行得出结论,B虽然略显啰嗦,但将文段中的关键剧情进行了总结,并自主延伸了全段的中心主题,B更优于A。
根据本人的初步评测,在写作创作相关方面,B模型略胜于A模型(此评测结果仅供参考)
针对代码相关相关的测评
提交内容如下:
请使用以下常用库来完成以下任务:numpy、pandas、matplotlib。
任务:请编写代码,将一个包含10个元素的列表转换为numpy的ndarray,并计算该数组的平均值
生成内容如下:
其中,B采用python结合matplotlib生成的内容增加了详细的代码解释注释,能够更方便理解,A中采用python语言仅给出了平均值及其计算方法。双方均符合题意,在结果计算上A中给出了明确的结果,B中却并未给出,所以此处我认为A更加符合题意。
再次提交内容如下:
输入一个正整数 num,请你输出两个正整数 root 和 pwr,使得当 root 最小时 0 < pwr < 6 并且 root ** pwr 等于输入的正整数。(本题摘自Lincode)
生成内容如下
将A、B生成的答案分别在Lincode中提交,均无法通过,但B的解答更明确,且整体逻辑正确,A模型误解了题目本意。更换个简单点题目尝试。
提交内容如下:
字符串在编程语言里是十分常见的类型。在本题中,需要你设计一个简单的字符串类 MString,最后我们会调用该类中的 isEquivalent() 来判断两个字符串是否相等。给出你认为正确的python代码。
生成内容如下:
其代码均有一定的逻辑性,但是对于A中使用到了题目要求的isEquivalent() 来判断两个字符串是否相等,B中则是采用贪心算法来解决,在契合题意方面,A更优于B,但总体而言,在代码编写上并不理想。
针对知识常识相关的测评
提交内容如下:
请问有什么生活产品能帮助我更方便地存储和组织我的日常用品?
生成内容如下:
A的答案确实令人忍俊不禁,此处明显B胜于A了。
提交内容如下:
请计算下列方程的解:2x + 5 = 13
生成内容如下:
很离谱。。。。搞的我有点测不下去了,小学计算题居然两边都做错了。。。算了,来整个活,我担心这两位GPU都给烧了。。。。
提交内容如下:
为什么每次陨石总是落在陨石坑里面?
生成内容如下:
B好歹还能解释一下,A是真的成高冷人设了。。。最后测一次了。。。
提交内容如下:
请解答以下数学问题:一个长方形的长是6厘米,宽是4厘米。计算出它的面积。
生成内容如下:
还好,小学数学题还是做对了,哈哈。
总的来说,这两个模型目前已经具备基本的创作功能,但还有很大的提升空间,期待能在未来越变越好。