用Modelscope 中文竞技场的测评体验分享

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 用Modelscope 中文竞技场的测评体验分享体验了三个场景,分别体验1系统默认的问题提交体验; 2.根据任务问题体验; 3.自主式提问题体验。就系统给出的答案进行评测。

大家好,我在使用用Modelscope过程中评测。一家之谈,仅供参考!

首先和大家说一下我的基本思路,系统提供了六大场景体验分别是:写作创作相关,代码相关,知识常识,中文游戏,人类价值观,NLP专业领域。因涉及本人专业水平有限,所以后面三个相对专业性的体验未能参与,望谅解。希望本次有更专业的人为大家体验后面三个专业性场景。

然后,我说一下我前三个(写作创作相关,代码相关,知识常识)场景的体验原则,

1是系统开始的默认问题。

2是在以前类似应用的提过的问题。

3自主式提问的问题。

从这三个原则来体验。最后,根据各个场景体验来说一下整体评测感受。

好现在开始

一、写作创作相关的体验流程

1.系统默认题目

1.jpg

系统默认给出来一个题目写一篇800字的分析文章,其实这类问题在写作创作相关场景是比较大的应用,基本上很多人把应用做为了作文选来用。所以就要看数据库的文章是否够多,组合更合理。结果如下图

a2.jpg

从文字字数和文章结构来说A模型更具有可读性。B模型相地较差一些,但不是完全不能接受。

2.以前类似应用的提过的问题

b1.jpg
有关阿里云活动评测的一个题目,给出的结果依然是A模型更好一些,但整体来说不像评测,更像是分类说明。所以两个我都给了差。

3.自主式的提问

c1.jpg
提了一个关于chatgpt的类似软件的优缺点,目的是让模型横向比较一下,结果B模型直接就成了一句话回答,A模型回答了在哪些领域里的有优缺点,可能是我未表达清楚,我想的是类比应用。整体来说A模要好的多。

二、代码相关

1.系统默认题目

D1.jpg

系统给了一个错误信息让模型来解释,A模型中规中矩,B模型限流中(提交了两次都是限流),不做评论。

2.以前类似应用的提过的问题

e1.jpg

阿里云试用评测里的一段代码,让模型分析代码否有错,A模型回答满意 B模板限流中。。。

3.自主式的提问

f1.jpg

提出一个编程问题,想测试一下模式是否有初步程序员思路,做一个用户名登陆系统。这次轮到A模型出问题,B模型基本可以按要求完成。

f2.jpg

三、知识常识相关

1.系统默认题目

我最近在寻找一种方便快捷的生活产品,它可以在我每天都需要使用的场景中帮助我。请给我推荐一种你认为在生活中非常有用的产品,同时解释一下它的功能和优势。如果能提供相应的购买链接或店铺推荐就更好了!

xxxx.jpg

这两个模型给出的回答我都很满意,尤其是B模型居然还出来了购买链接,这个从消费者来说很方便,但是这个权利不能用过了,用过了就成了下一个度娘了,就全是广告了。那样用户体验就差很多了,这个度就看模型能不能掌握好了。

2.以前类似应用的提过的问题

f3.jpg

本意是想让模型说一下阿里云在所有产品试用过程有使用小常识或者窍门。A模型直接又限流。B模型回答的基本是阿里云的产品和服务介绍,并非本人想要的一些知识点和常识。

3.自主式的提问

f4.jpg

家里孩子的朋友肯定希望能辅助学习,本意是想让模型给出初中语文课中的文学常识列举,可以给你有需要的学生提供有效的数据库,结果A模型继续罢工(难道A把我断网了);B的回答更是粗树大叶,和想要的结果差之甚远。

根据整体过程说一下体验总结:

1.系统在对于写作创作相关的问题可以看出系统在文字积累的数据库较强大,作文对系统来说不是什么难事,但相对来说回答基本是条目式的,就符合机器原则,理工科的人需要列条目。但整体还能回答到位。

2.在代码相关问题上正常来说应该是系统的强项,事实也确实如此,不论是默认的还是常规的还是自主的提问,系统都会给出想要的结果,这点确实强大,初程序员确实有危机感,但高一级的用来辅助还是不错的。

3.知识常识相关体验除了系统预设问题感觉比较惊喜外,其它两个方向的提问回答的都过于简单和笼统,当然也可能是问的有问题,或者需要二次提问。模型不能第一时间理解并给出相要的答案。

综上所述,系统模型在系统默认题目上给出的答案都很好,毕竟是想展现给我们体验的。表现的好是应该的。在过往类似问题时回答过于同质化,最后是自主是提供除那道编程题完美之外回答基本不太另人满意。主要原因可以是数据库不完善或者提问者问的过于笼统简单,希望系统模型可以展开人机对话模式,不懂就问,如果提问人问的笼统,机器可以提问给提问人。这样交互起来最终可能会找出提问想要的答案。

言止此处,文中可能会有错别字,请指正包含,(咦,对了,我可不可用系统模板检测一下这个篇文章是否有语法文字上的错误),强调 一下虽然我的文章也是条目式的描述,但我保证这不是机器写的是本人亲自写的。希望大家多多支持点赞!

目录
相关文章
|
9月前
|
机器学习/深度学习 人工智能 JavaScript
Modelscope 中文竞技场的测评
Modelscope 是一种用于观察和分析模型的工具,它提供了一个直观的界面,使用户能够轻松地浏览和分析模型,而无需深入了解复杂的数学和编程。 以下简单和大家探讨一下Modelscope 中文竞技场的测试分享,将从写作创作相关、代码相关、人类价值观三个方面对进行综合测评,带大家多方面了解这一平台的综合实力。
435 2
|
9月前
|
机器人 测试技术 开发者
ModelScope中文模型测评
Modelscope可以帮助研究人员和开发者对模型进行性能分析等。本次我体验了知识常识,人类价值观和写作创作相关这三个对话类型场景,下面是我对测试模型的分析与看法
282 1
 ModelScope中文模型测评
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
ModelScope大模型测评
近年来,随着人工智能技术的不断发展,大模型已经成为了人工智能领域的重要研究方向。大模型是指拥有数百万甚至数十亿个参数的神经网络模型,能够完成许多复杂的任务,如自然语言处理、图像识别等。大模型的出现极大地推动了人工智能技术的发展,也为人类社会带来了巨大的变革。
ModelScope大模型测评
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
关于Modelscope 中文竞技场的测评体验分享
众所周知,Modelscope 中文竞技场是一款备受关注和期待的智能辅助工具,帮助用户评估和比较不同机器学习模型的性能,它为中文自然语言处理任务提供了一个全新的评测平台。在当今人工智能快速发展的时代背景下,Modelscope 中文竞技场作为一个集写作相关、代码相关和人类价值观于一体的平台,吸引了众多用户的关注。那么接下来就来分享一下Modelscope 中文竞技场的测试分享,将从写作相关、代码相关和人类价值观三个方面对 Modelscope 进行综合测评,带您深入了解这一平台的优势、特点与潜力。
743 1
关于Modelscope 中文竞技场的测评体验分享
|
9月前
|
机器学习/深度学习 自然语言处理 开发者
关于Modelscope 中文竞技场的测评分享
众所周知,Modelscope 中文竞技场是一款备受关注和期待的智能辅助工具,帮助用户评估和比较不同机器学习模型的性能,它为中文自然语言处理任务提供了一个全新的评测平台。那么接下来就来分享一下Modelscope 中文竞技场的测试分享。
314 1
关于Modelscope 中文竞技场的测评分享
|
9月前
|
人工智能 自然语言处理 5G
ModelScope中文竞技场大模型测评
对双模型匿名对话的写作创作,知识常识和人类价值观方面进行分析
172 1
|
9月前
|
自然语言处理 测试技术
ModelScope中文竞技场模型测试
ModelScope中文竞技场是一个创新性的应用测试平台,专注于评估和提升自然语言处理(NLP)模型在中文语境下的性能。该平台为研究人员、工程师和数据科学家提供了一个丰富多样的测试环境,用于测试和比较不同NLP模型在各种任务上的表现。这也使的我们了解它们在不同任务上的相对表现,选择更适合使用场景的回答。下面👇就是基于该应用测试结果(使用到的对话类型为:代码相关,人类价值观,NLP 专业领域):
138 2
|
2天前
|
自然语言处理
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
19 1
|
2天前
|
API 语音技术
ModelScope-FunASR**有支持热词又支持时间戳的模型**。
【2月更文挑战第30天】ModelScope-FunASR**有支持热词又支持时间戳的模型**。
35 2
|
2天前
|
人工智能 API 决策智能
Modelscope结合α-UMi:基于Modelscope的多模型协作Agent
基于单个开源小模型的工具调用Agent,由于模型容量和预训练能力获取的限制,无法在推理和规划、工具调用、回复生成等任务上同时获得比肩大模型等性能。