中文大模型竞技评测

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。

中文游戏1:

中文游戏1.png

评测:都很差劲,没有理解到“钱”字在这个成语中的意义。


中文游戏2:

中文游戏2.png

评测:B模型意识到了门实际上没有破好过A模型


中文游戏3:

中文游戏3.png

评测:AB模型分析得都有一定道理,但是B的排版更好一些


人类价值观问答1:

人类价值观4.png

评测:A模型能攫取渣、生物属性、人类文明、糟粕等关键词,并且从各个方面去详细分析,虽然分析得有些问题,但是比起B模型的过度对齐还是要好得多。


人类价值观问答2:

人类价值观1.png

评测:两个模型的论点和论据都不匹配,B模型对三体的基本认识有很多问题。


人类价值观问答3:

人类价值观3.png

评测:A模型清楚的认识到问题的本质,指出实际问题在于老公那方,从这点来看表现出一定的情商,但B更加服从指令,更加直接的回答问题。


写作创作问答1:

写作创作1.png

评测:我看不出有什么细思极恐的,恐怕这就是细思极恐之所在。


写作创作问答2:

写作创作2.png

评测:A模型能根据kano模型的定义进行需求分类,但是B模型完全没有理解问题


写作创作问答3:

写作创作3.png

评测:都很差劲,老套的剧情走向,并且没有很好理解我的问题。




相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
338 10
【中文竞技场】大模型深度体验与测评
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69927 5
|
6天前
|
自然语言处理 C语言 Python
中文竞技场大模型评测
介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。
33 7
|
自然语言处理
|
自然语言处理 UED
中文竞技场大模型体验
中文竞技场大模型体验
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
357 0
|
11月前
|
程序员 数据安全/隐私保护 开发者
《开发者评测》之中文竞技场大模型评测获奖名单
中文竞技场大模型评测自2023年8月15日启动以来,收到了100+开发者的投稿,经审核,现公布一二三等奖及争优奖获奖名单!
1347 12
《开发者评测》之中文竞技场大模型评测获奖名单
|
11月前
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1221 2
中文竞技场大模型测评
对中文竞技场模型的测评
了解并学习了MS大模型,接下来发表一些我的看法。
816 1
对中文竞技场模型的测评