在阿里云开发者社区的中文竞技场模型中体验了一下魔塔平台提供的几个大模型在代码相关、知识常识和写作创作三个领域的使用效果,可以说表现的差强人意,本文是在双模型匿名对话的模式下对随机的两个模型提相同的问题得到的答案进行评测描述。
一、代码相关
这个领域对应的两个模型是ChatPLUG-initial和belle-llama-13b-2m-v1
第1个问题是根据输入框默认的输入做的问题发送,问题是:“请使用常用的库来完成以下任务:请使用requests库发送一个GET请求,获取指定网址的HTML内容,并打印出来”。两个模型均给出了答案,但是ChatPLUG-initial给出的效果好一点,不光给出了发送网络请求的方案,还给出了返回结果以后的解析方案。
第2个问题是“如何使用java实现连接mysql数据库的功能,并且实现查询一张表数据的功能”。ChatPLUG-initial给出了错误的答案,belle-llama-13b-2m-v1则直接给出了500的error code。
第3个问题是:“请使用常用的库来完成以下任务:请使用django实现一哥http接口服务”。
ChatPLUG-initial给出了正确答案,还附带代码示例。belle-llama-13b-2m-v1仅仅给出了文字描述方案。
总结:在代码领域,ChatPLUG-initial表现的更好一点。
二、知识常识
这个领域对应的两个模型是ChatPLUG-initial和ChatPLUG-100Poison
第1个问题是:“请使用以下数学公式解答问题:已知圆的半径为a,求圆的面积。”。两个模型均给出了答案,但是ChatPLUG-100Poison给出的效果好一点还告知了圆周率约为3.14,并且还有圆在微积分中的定义。
第2个问题是“中国进入太空第一人是谁?简单介绍一下”。两个算法给出的答案都不是非常令人满意。ChatPLUG-100Poison相对较好,给出了人名和时间,但是提到了无关紧要的内容。
第3个问题是:“中国古代四大发明是什么?他们分别是在哪个朝代哪一年发明的”。
两个算法给出的答案,ChatPLUG-100Poison回答的很完美,而且还是格式排版的输出
总结:在知识常识领域,ChatPLUG-100Poison表现的更好一点。有个小瑕疵就是为什么在页面上会出现一个红色的Error提示?需要优化。
三、写作创作
这个领域对应的两个模型是moss-moon-003-sft-v1和qwen-7b-chat-v1
第1个问题输入框默认的,题目比较长,大概的意思是给出四大名著的摘要。两个模型均未给出答案,报了网络错误,原因不明。
第2个问题是“请以春天,桃花和小雨为主题写一首七言绝句诗”。qwen-7b-chat-v1给出了答案,结果很满意。moss-moon-003-sft-v1仍然在报错。
第3个问题是:“刀郎的新歌罗刹海市让蒲松龄的这位小说家火了起来,帮我梳理一下这位伟大小说家的伟大作品”。qwen-7b-chat-v1给除了完美的答案。moss-moon-003-sft-v1仍然在报错。
总结:在写作创作领域,qwen-7b-chat-v1的表现是压倒性的好,输出的答案质量也很高。
四、总结
虽然不明白双模型pk随机选择算法的机制是什么,不过这种随机性感觉挺好。从总体的回答质量上来讲,只能说效果一般,尤其还有一些报错,这些是不应该出现的。还有就是每个领域限制发送三个问题,太少了,不具有普遍性,可以适当放开,让用户用更多元的问题去测试和评估一个模型的好坏。