中文竞技场大模型测评后续之双模型匿名对话

在线体验各类最新模型,更有模型 免费Token 额度领取!
立即体验
简介: 在中文竞技场大模型测评的延续中,我们将在双模型匿名对话技术场景中,通过趣味游戏方式对写作创作、代码相关、知识常识等领域进行全面测评

写在前言

关于中文竞技场和大模型的的相关介绍,可以参考主测评文章(中文竞技场大模型测评-龙虎榜),在这里就不重复介绍了,本次主要介绍双模型匿名对话的测评实验设计、测评维度及测评结果及最终结论。


单模型对话测评,→点我直达

模型自动对话,点我直达


双模型匿名对话

来自ChatGPT的回答

双模型匿名对话是一种通过结合两个或多个大型语言模型,同时保持用户和模型的匿名性来进行对话的方法。这种方法旨在提供更安全和隐私保护的对话体验,同时允许用户与模型进行有趣和有意义的互动。

后面有查询相关资料,总结一句话是:核心概念是保护用户和模型的匿名性


在传统的对话系统中,用户与模型之间的对话可能被记录和存储,因此可能会泄露用户的个人信息。双模型对话通过将用户和模型之间的中介隔离,确保了用户的身份和模型的身份都得到了保护。


测评设计-挑战赛

根据双模型匿名对话的特点:匿名性实时互动竞争性质难度适应,需要满足这几点要求,对于本次测评的6个场景,我将以趣味挑战赛的方式进行测评,挑战赛题目及规则如下:

场景

挑战赛

写作创作

文学大师对决:

两名匿名用户可以参与创作竞赛,每个用户在有限时间内匿名创作一个短篇小说、诗歌或散文

代码相关

编程挑战赛:

两名匿名用户可以参加编程比赛,每个用户在有限时间内解决一个编程难题

知识常识

知识竞赛:

两名匿名用户可以参加知识竞赛,提问者提出各种知识领域的问题,匿名竞争者争取在最短时间内给出正确答案。

文字游戏竞赛

中文游戏竞赛:

两名匿名用户可以进行中文文字游戏竞赛,看谁能在有限时间内获胜。

人类价值观

伦理辩论:

两名匿名用户可以进行伦理辩论,提出伦理和道德问题,匿名辩论者争取提供最具说服力的观点。

NLP专业领域

文本分类挑战赛:

两名匿名用户可以参加自然语言处理挑战,提问者提出NLP相关问题,匿名竞争者努力给出最准确的答案或解决方案。

评估标准

我们通过将双方输出结果,根据准确性、速度等方面进行综合评价。


比赛过程

下面我将从6个场景中选取3个场景进行测评比赛。

写作创作:文学大师对决

规则:随机选取三组对决,每组对决优胜者进行最终PK

题目:文学创作

题目:《时光之河》
故事背景:
在一个遥远的星球上,有一条神秘的河流——时光之河。河流中的水流有着特殊的力量,能够让接触到它的人回到过去或者穿越到未来。在这个星球上,有一个古老的村庄,村子里的居民们世世代代都守护着这个秘密。

第一组:模型B (qwen-7b-chat-v1) 取胜。从结果上看,模型B显然更好,有具体的故事发展、情节和结束;模型A只是列出了故事大概并没有创作故事。

image.png

第二组:模型B (belle-llama-13b-2m-v1) 取胜。又是billa模型,很遗憾这个回答无法满足基本创作要求。

image.png

第三组:模型A (moss-moon-003-sft-v1) 取胜。模型B只给出了故事介绍,并没有创作故事内容。

image.png

颁奖仪式

参赛选手:

billa-7b-sft-v1、qwen-7b-chat-v1、belle-llama-13b-2m-v1、moss-moon-003-sft-v1、chatglm-6b-v2

文学创作赛

最佳创作奖

qwen-7b-chat、moss-moon-003


代码相关:编程挑战赛

规则:随机选取三组对决,每组对决优胜者进行最终PK

题目:算法和数据结构挑战

编写一个算法,找到给定整数数组中的两个元素,使它们的和等于目标值。


第一组:都很好。

模型A介绍的非常详细,模型B给出两种实现思路及示例代码

image.png


第二组:模型A(qwen-7b-chat-v1)取胜。

模型A提供了一个时间复杂度更低的算法,并使用哈希表来解决问题。这种算法的时间复杂度为O(n),相较于模型B提供的双重循环算法的时间复杂度O(n^2),效率更高。


另外,模型A的回答提供了清晰的步骤和Python代码示例,详细解释了如何解决问题。还提到了算法的空间复杂度,并在最坏情况下进行了说明,使读者能够更好地理解算法的性能。image.png


第三组:都很差。

模型A提到了KNN(最近邻查找)机器学习技术,但KNN主要用于分类和回归问题,不适用于找到整数数组中两个元素的和等于目标值的问题。


模型B提供了一个与动态规划相关的描述,但该描述有一些问题。问题要求找到两个元素的和等于目标值,而不是判断子数组和是否大于或等于目标值。

image.png

颁奖仪式

参赛选手:

baichuan-13b-chat-v1、ChatPLUG-initial、qwen-7b-chat-v1、moss-moon-003-sft-v1、chatflow-7b-v1、phoenix_inst_chat_7b_v1

编程挑战赛

最佳编程奖

baichuan-13b-chat-v1

qwen-7b-chat-v1

知识常识:知识竞赛

规则:随机选取三组对决,每组对决优胜者进行最终PK

题目:历史知识竞赛

回答下面题目
1、中国古代的象形文字包括_______、______和______等。
2、选择题:以下哪个古代文明最先使用了象形文字?
A. 古埃及
B. 古印度
C. 古中国
3、问答题:
请简述象形文字在古代文明中的重要性和影响。

第一组:模型B(belle-llama-13b-2m-v1) 更好。

模型A三道题错了两道,模型B除了第一题有个答案错了,其余都正确。

image.png


第二组:都很好。

模型A、B都是第一题答案不完全正确,总的来说,正确率不错。

image.png

第三组:模型B (baichuan-13b-chat-v1) 更好。

image.png

颁奖仪式

参赛选手:

ChatPLUG-initial、belle-llama-13b-2m-v1、phoenix_inst_chat_7b_v1、ChatPLUG-100Poison、 baichuan-13b-chat-v1

知识竞赛

最佳表现奖

baichuan-13b-chat-v1

belle-llama-13b-2m-v1

phoenix_inst_chat_7b_v1


结尾

双模型匿名对话代表了一项令人兴奋的技术创新,它将自然语言处理与匿名互动相结合,为用户提供了一种全新的交流方式。通过简单地在文本框中提出问题或话题,用户即可立刻收到两个不同模型的回答,最终由用户自行选择自己更为满意的答案。这种独特的互动模式不仅让对话更加有趣,还可以在多个领域得到广泛应用。


在本次测评中发现,双模型匿名对话在娱乐、教育、竞技和学术领域均有巨大的潜力。它可以被应用于创造引人入胜的游戏、在线学习平台、激发竞技挑战,甚至进行深度讨论。匿名性和实时互动的特性使其在不同场景下都表现出色。



目录
相关文章
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
70641 5
|
4月前
|
人工智能 JavaScript Linux
【最新版养 AI龙虾🦞指南】零基础 OpenClaw 阿里云/本地部署、配置、使用保姆级教程
OpenClaw(原Clawdbot,曾用名Moltbot)作为一款开源轻量级AI自动化代理工具,2026年版本在部署灵活性、功能兼容性上实现重大升级,核心优势在于“自然语言驱动+全流程任务自动化”,无需手动编写脚本,仅需输入口语化指令,即可完成文档处理、日程管理、文件读写、跨工具协同、代码生成等各类重复性工作,被广泛应用于个人办公、新手开发、轻量团队协作等场景,堪称“私人AI员工”。
1618 92
|
7月前
|
负载均衡 应用服务中间件 Nacos
Nacos配置中心
本文详细介绍Nacos作为配置中心的实现原理与实战步骤,涵盖配置管理、热更新、共享配置优先级及集群搭建,帮助微服务应用实现配置动态化、高可用部署。
411 4
|
监控 安全 Ubuntu
从零开始学安全:服务器被入侵后的自救指南
在信息爆炸时代,服务器安全至关重要。本文针对黑客入侵问题,从应急处理、系统恢复到安全加固全面解析。发现入侵时应冷静隔离服务器,保存日志证据,深入排查痕迹;随后通过重装系统、恢复数据、更改密码完成清理;最后加强防火墙、更新软件、部署检测系统等措施防止二次入侵。服务器安全是一场持久战,需时刻警惕、不断优化防护策略。
1638 1
|
10月前
|
自然语言处理 语音技术 开发工具
IndexTTS2.0_ 情感表达与时长可控的自回归零样本语音合成突破
IndexTTS2 是首个实现自回归模型下**时长可控**、**情感与音色解耦**的零样本语音合成系统。支持语音克隆、情感迁移与文本驱动情绪控制,适用于影视配音、虚拟主播等场景。开源代码与模型已发布,提供完整本地部署方案,大幅提升语音合成的实用性与表现力。
2810 5
|
安全 关系型数据库 MySQL
MySQL崩溃保险箱:探秘Redo/Undo日志确保数据库安全无忧!
《MySQL崩溃保险箱:探秘Redo/Undo日志确保数据库安全无忧!》介绍了MySQL中的三种关键日志:二进制日志(Binary Log)、重做日志(Redo Log)和撤销日志(Undo Log)。这些日志确保了数据库的ACID特性,即原子性、一致性、隔离性和持久性。Redo Log记录数据页的物理修改,保证事务持久性;Undo Log记录事务的逆操作,支持回滚和多版本并发控制(MVCC)。文章还详细对比了InnoDB和MyISAM存储引擎在事务支持、锁定机制、并发性等方面的差异,强调了InnoDB在高并发和事务处理中的优势。通过这些机制,MySQL能够在事务执行、崩溃和恢复过程中保持
536 3
|
Kubernetes 持续交付 数据库
阿里云ACK+GitLab企业级部署实战教程
GitLab 是一个功能强大的基于 Web 的 DevOps 生命周期平台,整合了源代码管理、持续集成/持续部署(CI/CD)、项目管理等多种工具。其一体化设计使得开发团队能够在同一平台上进行代码协作、自动化构建与部署及全面的项目监控,极大提升了开发效率和项目透明度。 GitLab 的优势在于其作为一体化平台减少了工具切换,高度可定制以满足不同项目需求,并拥有活跃的开源社区和企业级功能,如高级权限管理和专业的技术支持。借助这些优势,GitLab 成为许多开发团队首选的 DevOps 工具,实现从代码编写到生产部署的全流程自动化和优化。
|
开发框架 前端开发 Linux
前端知识笔记(二十四)———快速创建桌面端(electron-egg)
前端知识笔记(二十四)———快速创建桌面端(electron-egg)
1238 0
|
域名解析 JavaScript 前端开发
5分钟快速上线Web应用和API(Vercel)
上周有个童鞋问我如何快速搭建一个Web应用,想拿来练手,就不考虑购置服务器。我推荐了前段时间很火的Vercel,接下来我带你5分钟上手!

热门文章

最新文章