中文竞技场大模型评测

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 综合来看,中文竞技场的模型在多个领域中都表现出了能力,不仅能够处理复杂的语言任务,还能够提供有关信息和应用的知识。

一、代码能力评测

1、使用任意编程语言实现一个函数,该函数接收一个整数作为输入,然后返回该整数的阶乘。请确保你的函数可以正确处理输入范围为0到10的整数。

71b608f05984c9174cce89335c5ac8db_qjdn6ii4nizke_1d812f45d2ab448bb71139c42bfcb59f.png

2、设计一个算法,用于统计一段文本中每个单词出现的次数,并按照出现次数降序排列。注意,你的算法应该能够处理大量文本,并保持高效性。请提供一个输入文本以测试你的算法。

776809f15714343e98dc37370299191f_qjdn6ii4nizke_63ed48f1f3ea4223b55719b75b08e1ff.png

3、将以下Python代码翻译成C++:

def factorial(n):
if n == 0:
return 1
else:
return n * factorial(n-1)

6a927a2f87ac8a3fe3cc4bd8c3481507_qjdn6ii4nizke_a1d7a0e12ce84cd3af712f07c65d2068.png

在代码相关领域,我们可以测试模型的编程能力。在这个领域里,模型需要具备一定的编程基础,并且能够理解和执行用户的指令。

正如上面的三词测试,AB模型同时测试,6个问题,2词出错,报错:请求超时,请稍后再试。


先不论结果如何,单单是这个错误率就不合格。
同时,生成的速度也很慢,每个问题都要1分钟才能生成,技术还是差了点。

二、写作能力评测

1、请根据以下材料撰写一篇专题文章,主题为环保。不少于500字。

『随着人口的增长和工业化的加速,环境问题愈发严峻,我们迫切需要采取行动来保护地球。但是,如何有效地实现环保目标仍然是一个亟待解决的难题。你认为环保的重要性和环保行动的作用是什么?请结合实例阐述你的观点。』
image.png

2、以下材料是一篇关于人工智能在医疗领域的应用的文章,请根据该文章提供的内容,生成一篇与之相关的摘要。
image.png

3、请对以下中文段落进行润色,使其更具表达力和流畅性:

> 在春天的清晨,我走进了一片青山绿水之中。我看到了繁花似锦的景象,听到了鸟儿欢快的歌声。这片美丽的自然风光让我感到宁静和放松。我想要传达这种美好的感受,希望你能帮助我润色这段文字,使其更具韵味和意境。
注意事项:
请不要泄露答案。
请确保润色后的文字表达清晰、生动。
文字可以进行适当的增删改,但不要改变原文的基本意思。
润色后的文字应该更加吸引人,使人能够感受到春天的美好气息。
请以自己的方式润色这段文字,展现你独特的润色能力。
谢谢你的帮助!

image.png

整体来看,中文写作的能力要比代码能力稍强一些,但是也是不太满意,内容不相关和出错率还是太大了。

三、知识常识类评测

1、请计算以下多项式的值:(2x^2 + 3x - 5),其中x的取值范围是-10到10之间的整数。
image.png

2、请计算以下数学题:将一根长度为10厘米的细木棒剪成3段,其中一段比另外两段的长度之和多2厘米,问另外两段的长度各是多少?

image.png

3、请列举出五种不同的食物杀菌方法。

image.png

数学题的计算,问题挺大,模型并没有理解我的意思啊。

同时,“五种”这个词是模型A还不理解吗?只是给出来了1个方法。。

四,整体的评测感想

这个平台让我们有机会深入了解不同领域中的模型效果,包括写作创作、代码相关、知识常识、中文游戏、人类价值观以及NLP专业领域。每个领域都提供了示例提示词,为我们的评测提供了基础。

综合来看,中文竞技场的模型在多个领域中都表现出了能力,不仅能够处理复杂的语言任务,还能够提供有关信息和应用的知识。

然而,我们也注意到,在一些特定的任务中,模型可能需要更多的训练和优化,以提高准确性和自然性。尽管模型在许多方面都表现出色,但在处理一些涉及深度思考、情感理解和创新思维的任务时,仍有一定的提升空间。

目录
相关文章
|
11月前
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69883 5
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
|
11月前
|
自然语言处理 Python
中文大模型评测
中文大模型评测
780 3
|
自然语言处理
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
343 0
|
10月前
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1207 2
中文竞技场大模型测评
|
12月前
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测
对中文竞技场模型的测评
了解并学习了MS大模型,接下来发表一些我的看法。
813 1
对中文竞技场模型的测评
|
11月前
|
人工智能
中文竞技场大模型评测
中文竞技场大模型评测
1121 0
中文竞技场大模型评测