中文竞技场大模型评测

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 中文竞技场大模型评测

image.png

进入中文竞技场大模型页面,有3种模式可以选择,首先选择双模型匿名对话模式:

首先我选的是代码类型,我提了3个问题,前两个问题是我自己出的算法题,后面一题是换一换出来的算法题

第一题:最小堆算法怎么实现,请用java编写,并且列举多个实现思路

image.png

模型A直接报错,不知道啥原因,模型B是给出了自己的解释,但是不知道是不是我的问题表达有问题还是怎么样,模型B也没有用java来实现,只是大概解释了下最小堆算法的过程,没有代码实现;

第二题:快速排序怎么实现,请用java实现

image.png

image.png

模型A还是报错,模型B给出了上一个问题最小堆的回答,而且回答也不全,代码只写了一半。


第三个问题:请使用任意编程语言编写一个程序,计算并输出斐波那契数列的前n项(n是任意大于0的整数),并确保程序具有高效性和准确性。

image.png

模型A还是报错,模型B还是在回答最小堆,神奇。

而且普遍这3个问题回答的速度很慢,体验不是很好。


第二我选了知识常识类型

第一题是通过换一换生成的:请列举3个你认为的生活常识问题,如何国庆节能够有效地避免人群聚集,以降低传染风险?

image.png

第一个问题,A回答的更好,B在回答为什么了,而且没有回答到问题上面去,这次回答速度都很快


第二个问题(自己写的):尿酸高是什么原因,怎么治疗或者预防尿酸高

image.png

从这个回答来看,模型B回答的更好,列举了原因和方法,回答的更详细,让人更满意。


第三个问题(自己写的):台风是怎么形成,能够通过画图简要说明吗

image.png

这个问题我觉得B回答的好,虽然两边都没有画图说明,但是B的说明更加清晰容易理解。


第三我选了写作创作相关

第一个提问是换一换

image.png

感觉润色效果都不明显。


第二个提问是:设计一个主题为阿里云小宝宣传的方案

image.png


感觉两边都没有出具体的方案,A是往如何出方案方向去考虑,B是阿里云的优势,都没达到自己的需求。


第三个提问是:帮忙写一篇关于最近华为鸿蒙以后不兼容安卓的文章

image.png

第一次A模型又回答了上一个的问题,设计云小宝的宣传方案,B方案还是表达了一些观点。

image.png

我又清空内容重新生成了一次,A模型比较简约,而且主题也不太对,B模型写出来的可以当成一篇简单的文章,还是不错。


后面又试了下模型自动对话,选择超市这个场景,但是文本内容不能自己编写,只能使用换一换

image.png

感觉A模型能够分析对话的意图,并且根据内容来回答目标想要的内容,感觉挺有意思。

又选了一个学校的场景

image.png

这次的对话感觉没那么自然,很容易就能察觉出是机器人在回答,ai智能程度不够。

又选了理发店的场景

image.png

感觉内容太少了,几句话就结束了这个场景,正常来讲,理发店工作人员会扯一些话题来聊,增进距离。


以上是我体验的一些内容,个人感觉来看,觉得模型之间差异还是很大,回复内容的有效程度估计还是有待提高,也有可能我提问方式不对,还需要两边多磨合磨合,不过对ai的进步还是很期待的。


相关文章
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69996 5
|
自然语言处理
|
自然语言处理 知识图谱
中文竞技场模型体验
中文竞技场模型体验
371 0
|
自然语言处理 UED
中文竞技场大模型体验
中文竞技场大模型体验
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
378 0
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1240 2
中文竞技场大模型测评
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测
对中文竞技场模型的测评
了解并学习了MS大模型,接下来发表一些我的看法。
829 1
对中文竞技场模型的测评
|
机器学习/深度学习 自然语言处理 测试技术
中文竞技场大模型评测体验报告
Modelscope是一个用于评估和分析深度学习模型的开源工具,它可以帮助研究人员和开发者对模型进行性能分析、可解释性分析和对比实验等。本次我体验了代码相关、知识常识和x写作创作相关这三个对话类型场景,下面是我的一些测试模型的分析。
438 19

热门文章

最新文章