中文竞技场评测

简介: 中文竞技场大模型评测

写作创作相关

1.写一篇关于如何选择适合自己的职业的实用文章。在文章中,阐述不同职业的优势和劣势,并给出具体的选择建议。

image.png

2.在社交媒体时代,网络言论对社会影响巨大。请撰写一篇针对大学生的实用应用文,探讨如何正确使用媒体社交平台并建设性地表达自己的观点。


image.png

3.请用你的想象力和创造力来写一个扣人心弦的故事。在一个小镇上,有一座神秘的古堡。据说这座古堡隐藏着无数宝藏和秘密。请续写下去,让我们揭开古堡的神秘面纱。image.png


代码相关

1.请编写一个程序,将一个给定的字符串倒序输出。

image.png

2.请解释以下代码的功能和执行结果:

def square(x):

return x * x

num = 5

result = square(num)

print(result)

说明:请详细说明代码中的每一行是做什么的,以及最终输出结果是多少。请使用尽可能简洁和清晰的语言进行解释。

image.png


3.将以下Python代码翻译成Java:

def calculate_sum(a, b):
    return a + b

image.png


知识常识领域

1.请给我推荐一种高质量的家用洗衣机。我需要一款适用于家庭使用的洗衣机,它应具备什么样的特点和功能?请详细描述,并提供一种适合家庭使用的洗衣机品牌和型号。

image.png


2.请写下三个可以防止食物变质的方法。

image.png


3.在你的城市的规定中,下列行为哪些是违法的?请列举至少五个常见的违法行为,但请不要透露具体的法律条款或罚则。

image.png



总的来说,整个模型的体验感不是太好,主要还是模型反馈的答案不准确,而且过程中还遇到了报错、选择了某个领域,使用了系统提供的问题,答案告诉我不符合对应主题。遇到代码或者数学类的题目时间响应都比较长,基本上每两个问题就会出现error的报错,后续就会出现答非所问的情况。即使有的问题答案和题目相关但准确度还是不够,有点像刚学会这个知识就去做题一样,总会有些小毛病在里面。

但在文本方面上来看,时间还是算可以的,长文的缓冲时间和一道复杂的数学题是相差不多的,给人一种模型有一些偏科的感觉。主题和中心是贴合问题的,但是整体上还是上述的不准确,能涵盖对应的问题,但不是直至核心。如果平常使用这个模型去做一些简单的事情,写个小留言或者评价还是可以的,但要是使用起来解决一些稍微复杂些的问题就有点难了。

相关文章
|
8月前
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69799 5
|
9月前
|
自然语言处理 UED
中文竞技场大模型体验
中文竞技场大模型体验
|
9月前
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
317 0
|
9月前
|
自然语言处理
|
9月前
中文竞技场大模型体验评测分析
中文竞技场大模型体验
401 0
中文竞技场大模型体验评测分析
|
9月前
|
自然语言处理 知识图谱
中文竞技场模型体验
中文竞技场模型体验
333 0
|
9月前
|
算法 安全 测试技术
中文竞技场大模型体验报告
本次测评的主要目标是评估中文竞技场提供的大模型在写作创作相关、知识常识和代码相关方面的表现。我们进入“中文竞技场”体验了这些模型,并在以下方面进行了测试和评估。
194 30
|
7月前
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1193 2
中文竞技场大模型测评
|
8月前
|
人工智能
中文竞技场大模型评测
中文竞技场大模型评测
1106 0
中文竞技场大模型评测
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测