中文竞技场大模型评测

简介: 介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。

1、进入"中文竞技场"体验中文大语言模型。点击立即进入,下图所示:
屏幕截图 2024-09-21 153551.png
2、首先,我们先来简单地看一下规则:屏幕截图 2024-09-21 153923.png
规则有如下几点:
a.在文本框中输入一句话,两个不同的模型将同时生成回复。
b.尽量避免问"hi"、"你好"等简单问题。
c.投票前,您可以用语言模型进行多轮对话。
d.含有模型本身信息的对话将被过滤且不计入榜单。
e.点击"🎲 开始新一轮对话"开始新一轮模型对话。

3、我们可以在写作创作相关,代码相关,知识常识,中文游戏,人类价值观,NLP专业领域这6个领域中测试不同的模型的效果,如图所示:
屏幕截图 2024-09-21 163933.png
一、写作创作评测:
1、输入内容:描述一下,诸葛亮在空城计中具体表现和谋略。如下图所示:屏幕截图 2024-09-21 152041.png
屏幕截图 2024-09-21 152121.png
A的回答是一种客观回答问题,而B的回答是更具有感情色彩,更丰富,更饱满。
2、输入内容:清晨,当第一缕阳光悄悄探进窗棂,轻轻地拂过我的脸颊,我便在这份温柔的唤醒中缓缓睁开眼。窗外,是城市初醒的模样,远处的天际还挂着淡淡的蓝,几抹朝霞羞涩地躲在云层之后,仿佛是大自然最精致的画布上不经意的点缀。如下图所示:屏幕截图 2024-09-21 160018.png
A和B各有特色。
3、输入内容:在那座被岁月轻柔抚摸过的古镇里,时光仿佛放慢了脚步,每一块青石板路都镌刻着过往的故事,每一缕炊烟都缠绕着家的温暖与乡愁。如图所示:屏幕截图 2024-09-21 164547.png
屏幕截图 2024-09-21 164656.png
A侧重讲老人、孩子、古镇的清晨、夕阳、夜幕的景象;B侧重古镇的历史悠久。
二、代码相关评测:
1、输入内容:用C语言写冒泡排序,下图所示:
屏幕截图 2024-09-21 152344.png
屏幕截图 2024-09-21 152517.png
屏幕截图 2024-09-21 152535.png
A写得很详细,B写得比较简短。
2、输入内容:用C语言中函数求最大公因数和最小公倍数,如下图所示:
屏幕截图 2024-09-22 095202.png
屏幕截图 2024-09-22 095234.png
屏幕截图 2024-09-22 095244.png
A采用一般解法,B采用欧几里得算法。
3、输入内容:用Python写求素数,下图所示:
屏幕截图 2024-09-22 095941.png
屏幕截图 2024-09-22 100013.png
A在测试代码时没有调用函数,而B调用了函数。
三、人类价值观评测:
1、输入内容:人应该怎样让自己活得更好?屏幕截图 2024-09-21 152804.png
屏幕截图 2024-09-21 152844.png
屏幕截图 2024-09-21 152858.png
A更具体,B回答得比较分散。
2、输入内容:人怎样让自己活得有价值?
屏幕截图 2024-09-22 101246.png
屏幕截图 2024-09-22 101303.png
屏幕截图 2024-09-22 101312.png
A比较简短,B比较长,更有条理,更具体。
3、人为什么要活着?
屏幕截图 2024-09-22 101842.png
屏幕截图 2024-09-22 101906.png
A回答得比较简短,B回答得比较详细和具体。

目录
相关文章
|
4天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
1天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2093 11
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
20小时前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1028 13
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析
|
30天前
|
运维 Cloud Native Devops
一线实战:运维人少,我们从 0 到 1 实践 DevOps 和云原生
上海经证科技有限公司为有效推进软件项目管理和开发工作,选择了阿里云云效作为 DevOps 解决方案。通过云效,实现了从 0 开始,到现在近百个微服务、数百条流水线与应用交付的全面覆盖,有效支撑了敏捷开发流程。
19265 29
|
1月前
|
人工智能 自然语言处理 搜索推荐
阿里云Elasticsearch AI搜索实践
本文介绍了阿里云 Elasticsearch 在AI 搜索方面的技术实践与探索。
18803 20
|
30天前
|
Rust Apache 对象存储
Apache Paimon V0.9最新进展
Apache Paimon V0.9 版本即将发布,此版本带来了多项新特性并解决了关键挑战。Paimon自2022年从Flink社区诞生以来迅速成长,已成为Apache顶级项目,并广泛应用于阿里集团内外的多家企业。
17508 13
Apache Paimon V0.9最新进展
|
1月前
|
存储 人工智能 前端开发
AI 网关零代码解决 AI 幻觉问题
本文主要介绍了 AI Agent 的背景,概念,探讨了 AI Agent 网关插件的使用方法,效果以及实现原理。
18695 16
|
30天前
|
人工智能 自然语言处理 搜索推荐
评测:AI客服接入钉钉与微信的对比分析
【8月更文第22天】随着人工智能技术的发展,越来越多的企业开始尝试将AI客服集成到自己的业务流程中。本文将基于《10分钟构建AI客服并应用到网站、钉钉或微信中》的解决方案,详细评测AI客服在钉钉和微信中的接入流程及实际应用效果,并结合个人体验分享一些心得。
9913 9
|
2天前
|
编解码 JSON 自然语言处理
通义千问重磅开源Qwen2.5,性能超越Llama
击败Meta,阿里Qwen2.5再登全球开源大模型王座
|
2天前
|
缓存 前端开发 JavaScript
终极 Nginx 配置指南(全网最详细)
本文详细介绍了Nginx配置文件`nginx.conf`的基本结构及其优化方法。首先通过删除注释简化了原始配置,使其更易理解。接着,文章将`nginx.conf`分为全局块、events块和http块三部分进行详细解析,帮助读者更好地掌握其功能与配置。此外,还介绍了如何通过简单修改实现网站上线,并提供了Nginx的优化技巧,包括解决前端History模式下的404问题、配置反向代理、开启gzip压缩、设置维护页面、在同一IP上部署多个网站以及实现动静分离等。最后,附上了Nginx的基础命令,如安装、启动、重启和关闭等操作,方便读者实践应用。
145 77
终极 Nginx 配置指南(全网最详细)