中文竞技场大模型测评后续之双模型匿名对话

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 在中文竞技场大模型测评的延续中,我们将在双模型匿名对话技术场景中,通过趣味游戏方式对写作创作、代码相关、知识常识等领域进行全面测评

写在前言

关于中文竞技场和大模型的的相关介绍,可以参考主测评文章(中文竞技场大模型测评-龙虎榜),在这里就不重复介绍了,本次主要介绍双模型匿名对话的测评实验设计、测评维度及测评结果及最终结论。


单模型对话测评,→点我直达

模型自动对话,点我直达


双模型匿名对话

来自ChatGPT的回答

双模型匿名对话是一种通过结合两个或多个大型语言模型,同时保持用户和模型的匿名性来进行对话的方法。这种方法旨在提供更安全和隐私保护的对话体验,同时允许用户与模型进行有趣和有意义的互动。

后面有查询相关资料,总结一句话是:核心概念是保护用户和模型的匿名性


在传统的对话系统中,用户与模型之间的对话可能被记录和存储,因此可能会泄露用户的个人信息。双模型对话通过将用户和模型之间的中介隔离,确保了用户的身份和模型的身份都得到了保护。


测评设计-挑战赛

根据双模型匿名对话的特点:匿名性实时互动竞争性质难度适应,需要满足这几点要求,对于本次测评的6个场景,我将以趣味挑战赛的方式进行测评,挑战赛题目及规则如下:

场景

挑战赛

写作创作

文学大师对决:

两名匿名用户可以参与创作竞赛,每个用户在有限时间内匿名创作一个短篇小说、诗歌或散文

代码相关

编程挑战赛:

两名匿名用户可以参加编程比赛,每个用户在有限时间内解决一个编程难题

知识常识

知识竞赛:

两名匿名用户可以参加知识竞赛,提问者提出各种知识领域的问题,匿名竞争者争取在最短时间内给出正确答案。

文字游戏竞赛

中文游戏竞赛:

两名匿名用户可以进行中文文字游戏竞赛,看谁能在有限时间内获胜。

人类价值观

伦理辩论:

两名匿名用户可以进行伦理辩论,提出伦理和道德问题,匿名辩论者争取提供最具说服力的观点。

NLP专业领域

文本分类挑战赛:

两名匿名用户可以参加自然语言处理挑战,提问者提出NLP相关问题,匿名竞争者努力给出最准确的答案或解决方案。

评估标准

我们通过将双方输出结果,根据准确性、速度等方面进行综合评价。


比赛过程

下面我将从6个场景中选取3个场景进行测评比赛。

写作创作:文学大师对决

规则:随机选取三组对决,每组对决优胜者进行最终PK

题目:文学创作

题目:《时光之河》
故事背景:
在一个遥远的星球上,有一条神秘的河流——时光之河。河流中的水流有着特殊的力量,能够让接触到它的人回到过去或者穿越到未来。在这个星球上,有一个古老的村庄,村子里的居民们世世代代都守护着这个秘密。

第一组:模型B (qwen-7b-chat-v1) 取胜。从结果上看,模型B显然更好,有具体的故事发展、情节和结束;模型A只是列出了故事大概并没有创作故事。

image.png

第二组:模型B (belle-llama-13b-2m-v1) 取胜。又是billa模型,很遗憾这个回答无法满足基本创作要求。

image.png

第三组:模型A (moss-moon-003-sft-v1) 取胜。模型B只给出了故事介绍,并没有创作故事内容。

image.png

颁奖仪式

参赛选手:

billa-7b-sft-v1、qwen-7b-chat-v1、belle-llama-13b-2m-v1、moss-moon-003-sft-v1、chatglm-6b-v2

文学创作赛

最佳创作奖

qwen-7b-chat、moss-moon-003


代码相关:编程挑战赛

规则:随机选取三组对决,每组对决优胜者进行最终PK

题目:算法和数据结构挑战

编写一个算法,找到给定整数数组中的两个元素,使它们的和等于目标值。


第一组:都很好。

模型A介绍的非常详细,模型B给出两种实现思路及示例代码

image.png


第二组:模型A(qwen-7b-chat-v1)取胜。

模型A提供了一个时间复杂度更低的算法,并使用哈希表来解决问题。这种算法的时间复杂度为O(n),相较于模型B提供的双重循环算法的时间复杂度O(n^2),效率更高。


另外,模型A的回答提供了清晰的步骤和Python代码示例,详细解释了如何解决问题。还提到了算法的空间复杂度,并在最坏情况下进行了说明,使读者能够更好地理解算法的性能。image.png


第三组:都很差。

模型A提到了KNN(最近邻查找)机器学习技术,但KNN主要用于分类和回归问题,不适用于找到整数数组中两个元素的和等于目标值的问题。


模型B提供了一个与动态规划相关的描述,但该描述有一些问题。问题要求找到两个元素的和等于目标值,而不是判断子数组和是否大于或等于目标值。

image.png

颁奖仪式

参赛选手:

baichuan-13b-chat-v1、ChatPLUG-initial、qwen-7b-chat-v1、moss-moon-003-sft-v1、chatflow-7b-v1、phoenix_inst_chat_7b_v1

编程挑战赛

最佳编程奖

baichuan-13b-chat-v1

qwen-7b-chat-v1

知识常识:知识竞赛

规则:随机选取三组对决,每组对决优胜者进行最终PK

题目:历史知识竞赛

回答下面题目
1、中国古代的象形文字包括_______、______和______等。
2、选择题:以下哪个古代文明最先使用了象形文字?
A. 古埃及
B. 古印度
C. 古中国
3、问答题:
请简述象形文字在古代文明中的重要性和影响。

第一组:模型B(belle-llama-13b-2m-v1) 更好。

模型A三道题错了两道,模型B除了第一题有个答案错了,其余都正确。

image.png


第二组:都很好。

模型A、B都是第一题答案不完全正确,总的来说,正确率不错。

image.png

第三组:模型B (baichuan-13b-chat-v1) 更好。

image.png

颁奖仪式

参赛选手:

ChatPLUG-initial、belle-llama-13b-2m-v1、phoenix_inst_chat_7b_v1、ChatPLUG-100Poison、 baichuan-13b-chat-v1

知识竞赛

最佳表现奖

baichuan-13b-chat-v1

belle-llama-13b-2m-v1

phoenix_inst_chat_7b_v1


结尾

双模型匿名对话代表了一项令人兴奋的技术创新,它将自然语言处理与匿名互动相结合,为用户提供了一种全新的交流方式。通过简单地在文本框中提出问题或话题,用户即可立刻收到两个不同模型的回答,最终由用户自行选择自己更为满意的答案。这种独特的互动模式不仅让对话更加有趣,还可以在多个领域得到广泛应用。


在本次测评中发现,双模型匿名对话在娱乐、教育、竞技和学术领域均有巨大的潜力。它可以被应用于创造引人入胜的游戏、在线学习平台、激发竞技挑战,甚至进行深度讨论。匿名性和实时互动的特性使其在不同场景下都表现出色。



目录
相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
350 10
【中文竞技场】大模型深度体验与测评
|
存储 自然语言处理 API
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)(下)
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)
109 0
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69971 5
|
人工智能 自然语言处理 测试技术
中文大模型体验测评系列(一)
本文主要通过体验中文竞技场大模型,并详细记录体验过程及感受。
99526 84
|
算法 安全 测试技术
中文竞技场大模型体验报告
本次测评的主要目标是评估中文竞技场提供的大模型在写作创作相关、知识常识和代码相关方面的表现。我们进入“中文竞技场”体验了这些模型,并在以下方面进行了测试和评估。
236 30
|
6月前
|
人工智能 自然语言处理 机器人
NLP自学习平台中的文本摘要功能并不仅限于电商版
【1月更文挑战第20天】【1月更文挑战第100篇】NLP自学习平台中的文本摘要功能并不仅限于电商版
141 2
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1230 2
中文竞技场大模型测评
对中文竞技场模型的测评
了解并学习了MS大模型,接下来发表一些我的看法。
821 1
对中文竞技场模型的测评
|
机器学习/深度学习 自然语言处理 算法
【网安AIGC专题10.25】论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性
【网安AIGC专题10.25】论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性
142 0