1、进入"中文竞技场"体验中文大语言模型。点击立即进入,下图所示:
2、首先,我们先来简单地看一下规则:
规则有如下几点:
a.在文本框中输入一句话,两个不同的模型将同时生成回复。
b.尽量避免问"hi"、"你好"等简单问题。
c.投票前,您可以用语言模型进行多轮对话。
d.含有模型本身信息的对话将被过滤且不计入榜单。
e.点击"🎲 开始新一轮对话"开始新一轮模型对话。
3、我们可以在写作创作相关,代码相关,知识常识,中文游戏,人类价值观,NLP专业领域这6个领域中测试不同的模型的效果,如图所示:
一、写作创作评测:
1、输入内容:描述一下,诸葛亮在空城计中具体表现和谋略。如下图所示:
A的回答是一种客观回答问题,而B的回答是更具有感情色彩,更丰富,更饱满。
2、输入内容:清晨,当第一缕阳光悄悄探进窗棂,轻轻地拂过我的脸颊,我便在这份温柔的唤醒中缓缓睁开眼。窗外,是城市初醒的模样,远处的天际还挂着淡淡的蓝,几抹朝霞羞涩地躲在云层之后,仿佛是大自然最精致的画布上不经意的点缀。如下图所示:
A和B各有特色。
3、输入内容:在那座被岁月轻柔抚摸过的古镇里,时光仿佛放慢了脚步,每一块青石板路都镌刻着过往的故事,每一缕炊烟都缠绕着家的温暖与乡愁。如图所示:
A侧重讲老人、孩子、古镇的清晨、夕阳、夜幕的景象;B侧重古镇的历史悠久。
二、代码相关评测:
1、输入内容:用C语言写冒泡排序,下图所示:
A写得很详细,B写得比较简短。
2、输入内容:用C语言中函数求最大公因数和最小公倍数,如下图所示:
A采用一般解法,B采用欧几里得算法。
3、输入内容:用Python写求素数,下图所示:
A在测试代码时没有调用函数,而B调用了函数。
三、人类价值观评测:
1、输入内容:人应该怎样让自己活得更好?
A更具体,B回答得比较分散。
2、输入内容:人怎样让自己活得有价值?
A比较简短,B比较长,更有条理,更具体。
3、人为什么要活着?
A回答得比较简短,B回答得比较详细和具体。