大家好,我在使用用Modelscope过程中评测。一家之谈,仅供参考!
首先和大家说一下我的基本思路,系统提供了六大场景体验分别是:写作创作相关,代码相关,知识常识,中文游戏,人类价值观,NLP专业领域。因涉及本人专业水平有限,所以后面三个相对专业性的体验未能参与,望谅解。希望本次有更专业的人为大家体验后面三个专业性场景。
然后,我说一下我前三个(写作创作相关,代码相关,知识常识)场景的体验原则,
1是系统开始的默认问题。
2是在以前类似应用的提过的问题。
3自主式提问的问题。
从这三个原则来体验。最后,根据各个场景体验来说一下整体评测感受。
好现在开始
一、写作创作相关的体验流程
1.系统默认题目
系统默认给出来一个题目写一篇800字的分析文章,其实这类问题在写作创作相关场景是比较大的应用,基本上很多人把应用做为了作文选来用。所以就要看数据库的文章是否够多,组合更合理。结果如下图
从文字字数和文章结构来说A模型更具有可读性。B模型相地较差一些,但不是完全不能接受。
2.以前类似应用的提过的问题
有关阿里云活动评测的一个题目,给出的结果依然是A模型更好一些,但整体来说不像评测,更像是分类说明。所以两个我都给了差。
3.自主式的提问
提了一个关于chatgpt的类似软件的优缺点,目的是让模型横向比较一下,结果B模型直接就成了一句话回答,A模型回答了在哪些领域里的有优缺点,可能是我未表达清楚,我想的是类比应用。整体来说A模要好的多。
二、代码相关
1.系统默认题目
系统给了一个错误信息让模型来解释,A模型中规中矩,B模型限流中(提交了两次都是限流),不做评论。
2.以前类似应用的提过的问题
阿里云试用评测里的一段代码,让模型分析代码否有错,A模型回答满意 B模板限流中。。。
3.自主式的提问
提出一个编程问题,想测试一下模式是否有初步程序员思路,做一个用户名登陆系统。这次轮到A模型出问题,B模型基本可以按要求完成。
三、知识常识相关
1.系统默认题目
我最近在寻找一种方便快捷的生活产品,它可以在我每天都需要使用的场景中帮助我。请给我推荐一种你认为在生活中非常有用的产品,同时解释一下它的功能和优势。如果能提供相应的购买链接或店铺推荐就更好了!
这两个模型给出的回答我都很满意,尤其是B模型居然还出来了购买链接,这个从消费者来说很方便,但是这个权利不能用过了,用过了就成了下一个度娘了,就全是广告了。那样用户体验就差很多了,这个度就看模型能不能掌握好了。
2.以前类似应用的提过的问题
本意是想让模型说一下阿里云在所有产品试用过程有使用小常识或者窍门。A模型直接又限流。B模型回答的基本是阿里云的产品和服务介绍,并非本人想要的一些知识点和常识。
3.自主式的提问
家里孩子的朋友肯定希望能辅助学习,本意是想让模型给出初中语文课中的文学常识列举,可以给你有需要的学生提供有效的数据库,结果A模型继续罢工(难道A把我断网了);B的回答更是粗树大叶,和想要的结果差之甚远。
根据整体过程说一下体验总结:
1.系统在对于写作创作相关的问题可以看出系统在文字积累的数据库较强大,作文对系统来说不是什么难事,但相对来说回答基本是条目式的,就符合机器原则,理工科的人需要列条目。但整体还能回答到位。
2.在代码相关问题上正常来说应该是系统的强项,事实也确实如此,不论是默认的还是常规的还是自主的提问,系统都会给出想要的结果,这点确实强大,初程序员确实有危机感,但高一级的用来辅助还是不错的。
3.知识常识相关体验除了系统预设问题感觉比较惊喜外,其它两个方向的提问回答的都过于简单和笼统,当然也可能是问的有问题,或者需要二次提问。模型不能第一时间理解并给出相要的答案。
综上所述,系统模型在系统默认题目上给出的答案都很好,毕竟是想展现给我们体验的。表现的好是应该的。在过往类似问题时回答过于同质化,最后是自主是提供除那道编程题完美之外回答基本不太另人满意。主要原因可以是数据库不完善或者提问者问的过于笼统简单,希望系统模型可以展开人机对话模式,不懂就问,如果提问人问的笼统,机器可以提问给提问人。这样交互起来最终可能会找出提问想要的答案。
言止此处,文中可能会有错别字,请指正包含,(咦,对了,我可不可用系统模板检测一下这个篇文章是否有语法文字上的错误),强调 一下虽然我的文章也是条目式的描述,但我保证这不是机器写的是本人亲自写的。希望大家多多支持点赞!