中文竞技场大模型评测

简介: 中文竞技场大模型评测

背景介绍

进入"中文竞技场"体验中文大语言模型,并可以在写作创作相关,代码相关,知识常识,中文游戏,人类价值观,NLP专业领域中测试不同的模型效果。

写作相关

输入提示词1

假设你是一名城市规划师,请以城市交通为主题,为一家政府部门撰写一篇关于改善交通状况的实用性研究报告。报告需要包括现有交通问题描述、解决方案提议、实施计划等内容,并重点强调可行性和效果。在报告中,还需考虑如何平衡各方利益和提升市民生活品质。请使用中文撰写800字左右的实用文,并确保逻辑清晰、语言流畅、观点准确!

image.png

模型A超时,模型B不准确,字数不够。都很差

输入提示词2

我是穿越者,穿越到外星,拯救世界,出一篇大纲

image.png

模型A超时,模型B不准确。都很差

输入提示词3

描述一个自然风光的文章

image.png

模型A超时,模型B不准确。都很差

代码相关

输入提示词1

将下面的Python代码翻译成C++:

def factorial(n):
if n == 0:
return 1
else:
return n * factorial(n-1)

num = int(input('请输入一个整数:'))
fact = factorial(num)
print('阶乘结果为:', fact)

image.png

模型A效果好

输入提示词2

请根据以下常用库的使用说明完成以下任务:

pandas
numpy
matplotlib
requests
BeautifulSoup
请你列举出每个库的主要功能和常用方法,并给出一个使用案例。

image.png

模型A详细些

输入提示词3

生成数据库示例

image.png

模型A理解能力高

NLP专业领域

输入提示词1

请根据下面的材料进行关系抽取:人物A是一位科学家,他在研究领域取得了巨大的成就。人物B是他的学生,并且在他的指导下,取得了令人瞩目的突破。请提取人物A和人物B之间的关系。

image.png

模型A有推理能力,但是推理结果不对,模型B直接给答案

输入提示词2

卷积神经网络原理

image.png

模型A准确些

输入提示词3

循环神经网络原理

image.png

模型A准确些

目录
相关文章
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69964 5
|
2月前
|
自然语言处理 C语言 Python
中文竞技场大模型评测
介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。
73 7
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
497 42
|
自然语言处理 Python
中文大模型评测
中文大模型评测
798 3
|
自然语言处理
|
自然语言处理 知识图谱
中文竞技场模型体验
中文竞技场模型体验
365 0
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
367 0
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1229 2
中文竞技场大模型测评
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测