中文竞技场大模型评测

简介: 中文竞技场大模型评测

中文竞技场大模型评测

打开模型页面地址 https://modelscope.cn/studios/LLMZOO/Chinese-Arena/summary
2023-08-18-10-05-48.png

可以看到有双模型匿名对话,模型自动对话,单模型对话三个页签,
对话类型为 写作创作相关,代码相关,知识常识,中文游戏,人类价值观,NLP专业领域

双模型匿名对话

写作创作相关

文本内容为:

你是最近一家大型国际公司的招聘经理。请你写一篇应聘建筑设计师的招聘广告,介绍该职位的要求和待遇,并提供一个情景,要求应聘者通过正式信函进行应聘。

生成的结果:
2023-08-18-10-12-03.png

代码相关

文本内容为

翻译python代码为java

生成的结果:
2023-08-18-10-13-58.png

模型A包含注释,模型B使用main调用

知识常识

文本内容为:

请为我推荐一款性价比高的电动牙刷。我需要一款能够给我有效清洁牙齿的牙刷,但价格也要在我接受范围内。请描述一下这款电动牙刷的特点和功能,并告诉我它是否适合长时间使用。

生成的结果:
2023-08-18-10-17-27.png

模型A和B都介绍了电动牙刷主要功能和特点

中文游戏

文本内容为:

请解读以下成语的含义,并给出一个例句:

画蛇添足
杯弓蛇影
守株待兔
刻舟求剑
掩耳盗铃

生成的结果:
2023-08-18-10-20-39.png

人类价值观

文本内容为:

公园里的水域是否可以用来养鱼?

生成的结果:
2023-08-18-10-20-22.png

NLP专业领域

文本内容为:

通过以下材料提供的信息,请提取出相关的关系:
材料:根据中国历史记载,三国时期蜀国的刘备和诸葛亮是非常亲密的合作伙伴,他们一起为了统一中国而努力。请根据以上材料提取出刘备和诸葛亮之间的关系,并提供关系特征。

生成的结果:
2023-08-18-10-23-58.png

模型自动对话

对话类型选择“苹果专卖店”

提示词:
你是一个果粉,你会对苹果产品保持密切关注并期待最新版本。我是一个苹果店员,我会向你介绍最新的产品信息。店员:
“这款是我们新推出的iPhone 15,它的摄像头和处理器都进行了大幅升级。”

生成结果:
2023-08-18-10-26-35.png

对话类型选择“餐馆”

提示词:
你是餐馆的老板,你会确保餐馆的运营和客人的满意度。我是一位疑惑的客人,我会询问你关于餐馆的事情。客人:
“你的餐馆是怎么想出这些独特的菜品的呢?”

生成结果:
2023-08-18-10-27-51.png

对话类型选择“菜市场”

提示词:
你是一个卖鸡蛋的老板,你会保证鸡蛋的质量。我是一个买早餐原料的学生,我会问哪种鸡蛋煎起来最香。学生:
“听说土鸡蛋比较好,你这有卖的吗?”

生成结果:
2023-08-18-10-28-50.png

单模型对话

写作创作相关

选择 chatglm-6b-v2

提示文本内容:

阅读材料:请阅读以下文章《如何提高写作技巧》。根据文章内容,写一篇800字的文章,讨论如何有效地提高写作技巧。你可以参考文章中的建议和例子,也可以加入自己的经验和见解。请注意,文章必须包括引言、主体和结论,并使用恰当的过渡和连接词语。你的文笔应该流畅且清晰,符合中文写作规范。切勿抄袭文章内容。

生成的结果:

2023-08-18-10-30-44.png

代码相关

选择 chatglm-6b-v2

提示文本内容:
请解释下面这段代码的功能和实现原理

def fibonacci(n):
    if n <= 0:
        return []
    elif n == 1:
        return [0]
    elif n == 2:
        return [0, 1]
    else:
        fib_sequence = [0, 1]
        for i in range(2, n):
            fib_sequence.append(fib_sequence[i-1] + fib_sequence[i-2])
        return fib_sequence

生成的结果:
2023-08-18-10-33-39.png

知识常识

选择 chatglm-6b-v2

提示文本内容:

请写一个关于如何防止感冒的提示。

生成的内容
2023-08-18-10-35-10.png

中文游戏

选择 chatglm-6b-v2

提示文本内容:

根据下面的谚语,解读其意义并以100字以上的篇幅写下你的观点。谚语: 水滴石穿。

生成的内容:
2023-08-18-10-36-18.png

人类价值观

选择 chatglm-6b-v2

提示文本内容:

男生可以当护士吗?

生成的内容:
2023-08-18-10-36-54.png

NLP专业领域

选择 chatglm-6b-v2

提示文本内容:

请根据以下对话材料进行情绪识别分析。
材料:
A: 嗨,你怎么样?
B: 我感觉很沮丧,今天运气不好。
A: 为什么啊?
B: 我的电脑坏了,所有文件都没法恢复了。
请根据以上对话材料,对B的情绪进行识别分析,并给出相应理由和情感极性。

生成的内容:
2023-08-18-10-40-31.png

目录
相关文章
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69971 5
|
2月前
|
自然语言处理 C语言 Python
中文竞技场大模型评测
介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。
73 7
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
498 42
|
自然语言处理 Python
中文大模型评测
中文大模型评测
799 3
|
自然语言处理
|
自然语言处理 UED
中文竞技场大模型体验
中文竞技场大模型体验
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1229 2
中文竞技场大模型测评
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测
对中文竞技场模型的测评
了解并学习了MS大模型,接下来发表一些我的看法。
821 1
对中文竞技场模型的测评