中文竞技场大模型评测

简介: 介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。

1、进入"中文竞技场"体验中文大语言模型。点击立即进入,下图所示:
屏幕截图 2024-09-21 153551.png
2、首先,我们先来简单地看一下规则:屏幕截图 2024-09-21 153923.png
规则有如下几点:
a.在文本框中输入一句话,两个不同的模型将同时生成回复。
b.尽量避免问"hi"、"你好"等简单问题。
c.投票前,您可以用语言模型进行多轮对话。
d.含有模型本身信息的对话将被过滤且不计入榜单。
e.点击"🎲 开始新一轮对话"开始新一轮模型对话。

3、我们可以在写作创作相关,代码相关,知识常识,中文游戏,人类价值观,NLP专业领域这6个领域中测试不同的模型的效果,如图所示:
屏幕截图 2024-09-21 163933.png
一、写作创作评测:
1、输入内容:描述一下,诸葛亮在空城计中具体表现和谋略。如下图所示:屏幕截图 2024-09-21 152041.png
屏幕截图 2024-09-21 152121.png
A的回答是一种客观回答问题,而B的回答是更具有感情色彩,更丰富,更饱满。
2、输入内容:清晨,当第一缕阳光悄悄探进窗棂,轻轻地拂过我的脸颊,我便在这份温柔的唤醒中缓缓睁开眼。窗外,是城市初醒的模样,远处的天际还挂着淡淡的蓝,几抹朝霞羞涩地躲在云层之后,仿佛是大自然最精致的画布上不经意的点缀。如下图所示:屏幕截图 2024-09-21 160018.png
A和B各有特色。
3、输入内容:在那座被岁月轻柔抚摸过的古镇里,时光仿佛放慢了脚步,每一块青石板路都镌刻着过往的故事,每一缕炊烟都缠绕着家的温暖与乡愁。如图所示:屏幕截图 2024-09-21 164547.png
屏幕截图 2024-09-21 164656.png
A侧重讲老人、孩子、古镇的清晨、夕阳、夜幕的景象;B侧重古镇的历史悠久。
二、代码相关评测:
1、输入内容:用C语言写冒泡排序,下图所示:
屏幕截图 2024-09-21 152344.png
屏幕截图 2024-09-21 152517.png
屏幕截图 2024-09-21 152535.png
A写得很详细,B写得比较简短。
2、输入内容:用C语言中函数求最大公因数和最小公倍数,如下图所示:
屏幕截图 2024-09-22 095202.png
屏幕截图 2024-09-22 095234.png
屏幕截图 2024-09-22 095244.png
A采用一般解法,B采用欧几里得算法。
3、输入内容:用Python写求素数,下图所示:
屏幕截图 2024-09-22 095941.png
屏幕截图 2024-09-22 100013.png
A在测试代码时没有调用函数,而B调用了函数。
三、人类价值观评测:
1、输入内容:人应该怎样让自己活得更好?屏幕截图 2024-09-21 152804.png
屏幕截图 2024-09-21 152844.png
屏幕截图 2024-09-21 152858.png
A更具体,B回答得比较分散。
2、输入内容:人怎样让自己活得有价值?
屏幕截图 2024-09-22 101246.png
屏幕截图 2024-09-22 101303.png
屏幕截图 2024-09-22 101312.png
A比较简短,B比较长,更有条理,更具体。
3、人为什么要活着?
屏幕截图 2024-09-22 101842.png
屏幕截图 2024-09-22 101906.png
A回答得比较简短,B回答得比较详细和具体。

目录
相关文章
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69964 5
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
497 42
|
自然语言处理 Python
中文大模型评测
中文大模型评测
798 3
|
自然语言处理
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
367 0
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1229 2
中文竞技场大模型测评
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测
对中文竞技场模型的测评
了解并学习了MS大模型,接下来发表一些我的看法。
821 1
对中文竞技场模型的测评
|
机器学习/深度学习 自然语言处理 测试技术
中文竞技场大模型评测体验报告
Modelscope是一个用于评估和分析深度学习模型的开源工具,它可以帮助研究人员和开发者对模型进行性能分析、可解释性分析和对比实验等。本次我体验了代码相关、知识常识和x写作创作相关这三个对话类型场景,下面是我的一些测试模型的分析。
433 19