阿里云开发者社区的中文竞技场模型体验-MS大模型评测

简介: 阿里云开发者社区的中文竞技场模型体验-MS大模型评测

在阿里云开发者社区的中文竞技场模型中体验了一下魔塔平台提供的几个大模型在代码相关、知识常识和写作创作三个领域的使用效果,可以说表现的差强人意,本文是在双模型匿名对话的模式下对随机的两个模型提相同的问题得到的答案进行评测描述。


一、代码相关

image.png

image.png

image.png

这个领域对应的两个模型是ChatPLUG-initial和belle-llama-13b-2m-v1

第1个问题是根据输入框默认的输入做的问题发送,问题是:“请使用常用的库来完成以下任务:请使用requests库发送一个GET请求,获取指定网址的HTML内容,并打印出来”。两个模型均给出了答案,但是ChatPLUG-initial给出的效果好一点,不光给出了发送网络请求的方案,还给出了返回结果以后的解析方案。

第2个问题是“如何使用java实现连接mysql数据库的功能,并且实现查询一张表数据的功能”。ChatPLUG-initial给出了错误的答案,belle-llama-13b-2m-v1则直接给出了500的error code。

第3个问题是:“请使用常用的库来完成以下任务:请使用django实现一哥http接口服务”。

ChatPLUG-initial给出了正确答案,还附带代码示例。belle-llama-13b-2m-v1仅仅给出了文字描述方案。

总结:在代码领域,ChatPLUG-initial表现的更好一点。


二、知识常识

image.png

image.png

image.png

这个领域对应的两个模型是ChatPLUG-initial和ChatPLUG-100Poison

第1个问题是:“请使用以下数学公式解答问题:已知圆的半径为a,求圆的面积。”。两个模型均给出了答案,但是ChatPLUG-100Poison给出的效果好一点还告知了圆周率约为3.14,并且还有圆在微积分中的定义。

第2个问题是“中国进入太空第一人是谁?简单介绍一下”。两个算法给出的答案都不是非常令人满意。ChatPLUG-100Poison相对较好,给出了人名和时间,但是提到了无关紧要的内容。

第3个问题是:“中国古代四大发明是什么?他们分别是在哪个朝代哪一年发明的”。

两个算法给出的答案,ChatPLUG-100Poison回答的很完美,而且还是格式排版的输出

总结:在知识常识领域,ChatPLUG-100Poison表现的更好一点。有个小瑕疵就是为什么在页面上会出现一个红色的Error提示?需要优化。


三、写作创作

image.png

image.png

image.png

这个领域对应的两个模型是moss-moon-003-sft-v1和qwen-7b-chat-v1

第1个问题输入框默认的,题目比较长,大概的意思是给出四大名著的摘要。两个模型均未给出答案,报了网络错误,原因不明。

第2个问题是“请以春天,桃花和小雨为主题写一首七言绝句诗”。qwen-7b-chat-v1给出了答案,结果很满意。moss-moon-003-sft-v1仍然在报错。

第3个问题是:“刀郎的新歌罗刹海市让蒲松龄的这位小说家火了起来,帮我梳理一下这位伟大小说家的伟大作品”。qwen-7b-chat-v1给除了完美的答案。moss-moon-003-sft-v1仍然在报错。

总结:在写作创作领域,qwen-7b-chat-v1的表现是压倒性的好,输出的答案质量也很高。


四、总结

虽然不明白双模型pk随机选择算法的机制是什么,不过这种随机性感觉挺好。从总体的回答质量上来讲,只能说效果一般,尤其还有一些报错,这些是不应该出现的。还有就是每个领域限制发送三个问题,太少了,不具有普遍性,可以适当放开,让用户用更多元的问题去测试和评估一个模型的好坏。

目录
相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
351 10
【中文竞技场】大模型深度体验与测评
|
人工智能 自然语言处理 Java
首次体验中文竞技场大模型体验!!!
我将分别从知识常识、中文游戏、NLP专业领域、代码相关、写作创作、人类价值观六大领域测评不同模型的效果,以及一些看法。
|
人工智能 自然语言处理 测试技术
中文大模型体验测评系列(一)
本文主要通过体验中文竞技场大模型,并详细记录体验过程及感受。
99535 84
|
3月前
|
自然语言处理 C语言 Python
中文竞技场大模型评测
介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。
77 7
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
501 42
|
算法 安全 测试技术
中文竞技场大模型体验报告
本次测评的主要目标是评估中文竞技场提供的大模型在写作创作相关、知识常识和代码相关方面的表现。我们进入“中文竞技场”体验了这些模型,并在以下方面进行了测试和评估。
237 30
|
自然语言处理
|
自然语言处理 知识图谱
中文竞技场模型体验
中文竞技场模型体验
365 0
|
自然语言处理
「ModelScope」中文竞技场体验测评报告
体验大语言模型,并产出创作、代码相关、知识常识三个领域的评测报告
128 1