中文竞技场大模型评测-阿里云开发者社区

中文竞技场大模型评测

2023-08-16 272 发布于浙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 中文竞技场大模型评测

进入中文竞技场大模型页面，有3种模式可以选择，首先选择双模型匿名对话模式：

首先我选的是代码类型，我提了3个问题，前两个问题是我自己出的算法题，后面一题是换一换出来的算法题

第一题：最小堆算法怎么实现，请用java编写，并且列举多个实现思路

模型A直接报错，不知道啥原因，模型B是给出了自己的解释，但是不知道是不是我的问题表达有问题还是怎么样，模型B也没有用java来实现，只是大概解释了下最小堆算法的过程，没有代码实现；

第二题：快速排序怎么实现，请用java实现

模型A还是报错，模型B给出了上一个问题最小堆的回答，而且回答也不全，代码只写了一半。

第三个问题：请使用任意编程语言编写一个程序，计算并输出斐波那契数列的前n项（n是任意大于0的整数），并确保程序具有高效性和准确性。

模型A还是报错，模型B还是在回答最小堆，神奇。

而且普遍这3个问题回答的速度很慢，体验不是很好。

第二我选了知识常识类型

第一题是通过换一换生成的：请列举3个你认为的生活常识问题，如何国庆节能够有效地避免人群聚集，以降低传染风险？

第一个问题，A回答的更好，B在回答为什么了，而且没有回答到问题上面去，这次回答速度都很快

第二个问题（自己写的）：尿酸高是什么原因，怎么治疗或者预防尿酸高

从这个回答来看，模型B回答的更好，列举了原因和方法，回答的更详细，让人更满意。

第三个问题（自己写的）：台风是怎么形成，能够通过画图简要说明吗

这个问题我觉得B回答的好，虽然两边都没有画图说明，但是B的说明更加清晰容易理解。

第三我选了写作创作相关

第一个提问是换一换

感觉润色效果都不明显。

第二个提问是：设计一个主题为阿里云小宝宣传的方案

感觉两边都没有出具体的方案，A是往如何出方案方向去考虑，B是阿里云的优势，都没达到自己的需求。

第三个提问是：帮忙写一篇关于最近华为鸿蒙以后不兼容安卓的文章

第一次A模型又回答了上一个的问题，设计云小宝的宣传方案，B方案还是表达了一些观点。

我又清空内容重新生成了一次，A模型比较简约，而且主题也不太对，B模型写出来的可以当成一篇简单的文章，还是不错。

后面又试了下模型自动对话，选择超市这个场景，但是文本内容不能自己编写，只能使用换一换

感觉A模型能够分析对话的意图，并且根据内容来回答目标想要的内容，感觉挺有意思。

又选了一个学校的场景

这次的对话感觉没那么自然，很容易就能察觉出是机器人在回答，ai智能程度不够。

又选了理发店的场景

感觉内容太少了，几句话就结束了这个场景，正常来讲，理发店工作人员会扯一些话题来聊，增进距离。

以上是我体验的一些内容，个人感觉来看，觉得模型之间差异还是很大，回复内容的有效程度估计还是有待提高，也有可能我提问方式不对，还需要两边多磨合磨合，不过对ai的进步还是很期待的。

中文竞技场大模型评测

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

中文竞技场大模型评测

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景