写在前言
关于中文竞技场和大模型的的相关介绍,可以参考主测评文章(中文竞技场大模型测评-龙虎榜),在这里就不重复介绍了,本次主要介绍双模型匿名对话的测评实验设计、测评维度及测评结果及最终结论。
双模型匿名对话
来自ChatGPT的回答
双模型匿名对话是一种通过结合两个或多个大型语言模型,同时保持用户和模型的匿名性来进行对话的方法。这种方法旨在提供更安全和隐私保护的对话体验,同时允许用户与模型进行有趣和有意义的互动。
后面有查询相关资料,总结一句话是:核心概念是保护用户和模型的匿名性。
在传统的对话系统中,用户与模型之间的对话可能被记录和存储,因此可能会泄露用户的个人信息。双模型对话通过将用户和模型之间的中介隔离,确保了用户的身份和模型的身份都得到了保护。
测评设计-挑战赛
根据双模型匿名对话的特点:匿名性、实时互动、竞争性质、难度适应,需要满足这几点要求,对于本次测评的6个场景,我将以趣味挑战赛的方式进行测评,挑战赛题目及规则如下:
场景 |
挑战赛 |
写作创作 |
文学大师对决: 两名匿名用户可以参与创作竞赛,每个用户在有限时间内匿名创作一个短篇小说、诗歌或散文 |
代码相关 |
编程挑战赛: 两名匿名用户可以参加编程比赛,每个用户在有限时间内解决一个编程难题 |
知识常识 |
知识竞赛: 两名匿名用户可以参加知识竞赛,提问者提出各种知识领域的问题,匿名竞争者争取在最短时间内给出正确答案。 |
文字游戏竞赛 | 中文游戏竞赛: 两名匿名用户可以进行中文文字游戏竞赛,看谁能在有限时间内获胜。 |
人类价值观 |
伦理辩论: 两名匿名用户可以进行伦理辩论,提出伦理和道德问题,匿名辩论者争取提供最具说服力的观点。 |
NLP专业领域 |
文本分类挑战赛: 两名匿名用户可以参加自然语言处理挑战,提问者提出NLP相关问题,匿名竞争者努力给出最准确的答案或解决方案。 |
评估标准
我们通过将双方输出结果,根据准确性、速度等方面进行综合评价。
比赛过程
下面我将从6个场景中选取3个场景进行测评比赛。
写作创作:文学大师对决
规则:随机选取三组对决,每组对决优胜者进行最终PK
题目:文学创作
题目:《时光之河》 故事背景: 在一个遥远的星球上,有一条神秘的河流——时光之河。河流中的水流有着特殊的力量,能够让接触到它的人回到过去或者穿越到未来。在这个星球上,有一个古老的村庄,村子里的居民们世世代代都守护着这个秘密。
第一组:模型B (qwen-7b-chat-v1) 取胜。从结果上看,模型B显然更好,有具体的故事发展、情节和结束;模型A只是列出了故事大概并没有创作故事。
第二组:模型B (belle-llama-13b-2m-v1) 取胜。又是billa模型,很遗憾这个回答无法满足基本创作要求。
第三组:模型A (moss-moon-003-sft-v1) 取胜。模型B只给出了故事介绍,并没有创作故事内容。
颁奖仪式
参赛选手:
billa-7b-sft-v1、qwen-7b-chat-v1、belle-llama-13b-2m-v1、moss-moon-003-sft-v1、chatglm-6b-v2
文学创作赛 |
|
最佳创作奖 |
qwen-7b-chat、moss-moon-003 |
代码相关:编程挑战赛
规则:随机选取三组对决,每组对决优胜者进行最终PK
题目:算法和数据结构挑战
编写一个算法,找到给定整数数组中的两个元素,使它们的和等于目标值。
第一组:都很好。
模型A介绍的非常详细,模型B给出两种实现思路及示例代码
第二组:模型A(qwen-7b-chat-v1)取胜。
模型A提供了一个时间复杂度更低的算法,并使用哈希表来解决问题。这种算法的时间复杂度为O(n),相较于模型B提供的双重循环算法的时间复杂度O(n^2),效率更高。
另外,模型A的回答提供了清晰的步骤和Python代码示例,详细解释了如何解决问题。还提到了算法的空间复杂度,并在最坏情况下进行了说明,使读者能够更好地理解算法的性能。
第三组:都很差。
模型A提到了KNN(最近邻查找)机器学习技术,但KNN主要用于分类和回归问题,不适用于找到整数数组中两个元素的和等于目标值的问题。
模型B提供了一个与动态规划相关的描述,但该描述有一些问题。问题要求找到两个元素的和等于目标值,而不是判断子数组和是否大于或等于目标值。
颁奖仪式
参赛选手:
baichuan-13b-chat-v1、ChatPLUG-initial、qwen-7b-chat-v1、moss-moon-003-sft-v1、chatflow-7b-v1、phoenix_inst_chat_7b_v1
编程挑战赛 |
|
最佳编程奖 |
baichuan-13b-chat-v1 qwen-7b-chat-v1 |
知识常识:知识竞赛
规则:随机选取三组对决,每组对决优胜者进行最终PK
题目:历史知识竞赛
回答下面题目 1、中国古代的象形文字包括_______、______和______等。 2、选择题:以下哪个古代文明最先使用了象形文字? A. 古埃及 B. 古印度 C. 古中国 3、问答题: 请简述象形文字在古代文明中的重要性和影响。
第一组:模型B(belle-llama-13b-2m-v1) 更好。
模型A三道题错了两道,模型B除了第一题有个答案错了,其余都正确。
第二组:都很好。
模型A、B都是第一题答案不完全正确,总的来说,正确率不错。
第三组:模型B (baichuan-13b-chat-v1) 更好。
颁奖仪式
参赛选手:
ChatPLUG-initial、belle-llama-13b-2m-v1、phoenix_inst_chat_7b_v1、ChatPLUG-100Poison、 baichuan-13b-chat-v1
知识竞赛 |
|
最佳表现奖 |
baichuan-13b-chat-v1 belle-llama-13b-2m-v1 phoenix_inst_chat_7b_v1 |
结尾
双模型匿名对话代表了一项令人兴奋的技术创新,它将自然语言处理与匿名互动相结合,为用户提供了一种全新的交流方式。通过简单地在文本框中提出问题或话题,用户即可立刻收到两个不同模型的回答,最终由用户自行选择自己更为满意的答案。这种独特的互动模式不仅让对话更加有趣,还可以在多个领域得到广泛应用。
在本次测评中发现,双模型匿名对话在娱乐、教育、竞技和学术领域均有巨大的潜力。它可以被应用于创造引人入胜的游戏、在线学习平台、激发竞技挑战,甚至进行深度讨论。匿名性和实时互动的特性使其在不同场景下都表现出色。