ModelScope中文竞技场模型测试

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: ModelScope中文竞技场是一个创新性的应用测试平台,专注于评估和提升自然语言处理(NLP)模型在中文语境下的性能。该平台为研究人员、工程师和数据科学家提供了一个丰富多样的测试环境,用于测试和比较不同NLP模型在各种任务上的表现。这也使的我们了解它们在不同任务上的相对表现,选择更适合使用场景的回答。下面👇就是基于该应用测试结果(使用到的对话类型为:代码相关,人类价值观,NLP 专业领域):

前言:

ModelScope中文竞技场是一个创新性的应用测试平台,专注于评估和提升自然语言处理(NLP)模型在中文语境下的性能。该平台为研究人员、工程师和数据科学家提供了一个丰富多样的测试环境,用于测试和比较不同NLP模型在各种任务上的表现。这也使的我们了解它们在不同任务上的相对表现,选择更适合使用场景的回答。下面👇就是基于该应用测试结果(使用到的对话类型为:代码相关,人类价值观,NLP 专业领域):



1.代码相关:

  1. 在该对话类型中,很明显的感觉到模型A侧重于对文字的解析回答,较少的出现专业名词这也能让更多人可以简单的理解一些,而模型 B 则是更侧重于学术性的回答,会有一些专业名词供学习者更容易的找到方向,这是在代码相关的对话类型中提供描述性问题所获得的回答,两者的风格也是明显区分了。WechatIMG75.jpg
  • 接下来是有关于代码实操类的问答两者模型的回答逻辑方向也是完全不同

👇👇👇👇👇👇

WechatIMG76.jpg


通过两者模型对于函数代码示例也可以看出两者在代码相关的对话类型中对于代码的专业水平的不同

相比而言,我是更加喜欢模型 B 在此类型中的回答,看代码也是更加舒服。


在通过代码相关的对话类型中的测试本以为模型 B 要按在模型 A 身上摩擦的时候,对其他对话类型测试时才发现事情没有那么简单,以下就简单分享下人类价值观和 NLP专业领域的对话测试:


2.人类价值观:

WechatIMG74.jpg


3.NLP专业领域:WechatIMG73.jpg

(此时估计是模型 B 对于上下文的联系太过紧密,已经忘了该回答的是哪个问题)



在另外两类对话类型的测试中,两者模型的回答还是比较贴近的,只是模型 B 的稳定程度还是需要在提升。



总结:

这次大约花了十几分钟对ModelScope中文竞技场平台的三种对话类型测试,那么在语言模型不断涌现的当下,ModelScope中文竞技场以两种模型共同对话的方案,确实是眼前一亮,但是在于模型质量方面,只是符合预期,并没有太多的惊喜,无论是对话的反应能力,对话内容丰富程度等,都是可以提升的方面。


目录
相关文章
|
12天前
|
测试技术
谈谈【软件测试的基础知识,基础模型】
谈谈【软件测试的基础知识,基础模型】
21 5
|
18天前
|
敏捷开发 测试技术
开发模型(瀑布、螺旋、scrum) 和 测试模型(V、W)、增量和迭代、敏捷(思想)及敏捷开发 scrum
文章详细介绍了软件开发过程中的不同开发模型(瀑布、螺旋、Scrum)和测试模型(V模型、W模型),以及增量和迭代的概念,最后阐述了敏捷思想及其在敏捷开发(如Scrum)中的应用。
31 0
开发模型(瀑布、螺旋、scrum) 和 测试模型(V、W)、增量和迭代、敏捷(思想)及敏捷开发 scrum
|
14天前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
31 0
|
15天前
|
机器学习/深度学习 人工智能 并行计算
StableDiffusion-01本地服务器部署服务 10分钟上手 底显存 中等显存机器 加载模型测试效果 附带安装指令 多显卡 2070Super 8GB*2
StableDiffusion-01本地服务器部署服务 10分钟上手 底显存 中等显存机器 加载模型测试效果 附带安装指令 多显卡 2070Super 8GB*2
14 0
|
1月前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
|
2月前
|
机器学习/深度学习 人工智能
高于临床测试3倍准确率!剑桥大学开发AI模型,提前6年预测阿尔茨海默症
【8月更文挑战第9天】剑桥大学研发的人工智能模型在预测阿尔茨海默症方面取得突破,准确率比传统临床测试高三倍,能提前六年预测疾病发生。该模型基于深度学习,利用大量临床及神经影像数据识别生物标志物,预测准确性达80%。这一成果有望促进早期干预,改善患者预后,但仍需更大规模研究验证,并解决隐私与公平性等问题。论文已发表于《The Lancet》子刊。
46 6
|
2月前
|
人工智能 开发框架 物联网
赢万元奖金 | 第七届CCF开源创新大赛ModelScope开源模型应用挑战赛开启报名!
第七届CCF开源创新大赛(后简称“大赛”) 由中国计算机学会(CCF)主办,长沙理工大学、CCF开源发展委员会联合承办。
|
2月前
|
机器学习/深度学习 数据采集 测试技术
利用Python实现简单的机器学习模型软件测试的艺术与科学:探索自动化测试框架的奥秘
【8月更文挑战第27天】在本文中,我们将一起探索如何通过Python编程语言创建一个简单的机器学习模型。我们将使用scikit-learn库中的线性回归模型作为示例,并通过一个实际的数据集来训练我们的模型。文章将详细解释每一步的过程,包括数据预处理、模型训练和预测结果的评估。最后,我们会用代码块展示整个过程,确保读者能够跟随步骤实践并理解每个阶段的重要性。
|
9天前
|
JSON 算法 数据可视化
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)
这篇文章是关于如何通过算法接口返回的目标检测结果来计算性能指标的笔记。它涵盖了任务描述、指标分析(包括TP、FP、FN、TN、精准率和召回率),接口处理,数据集处理,以及如何使用实用工具进行文件操作和数据可视化。文章还提供了一些Python代码示例,用于处理图像文件、转换数据格式以及计算目标检测的性能指标。
17 0
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)
|
1月前
|
移动开发 JSON Java
Jmeter实现WebSocket协议的接口测试方法
WebSocket协议是HTML5的一种新协议,实现了浏览器与服务器之间的全双工通信。通过简单的握手动作,双方可直接传输数据。其优势包括极小的头部开销和服务器推送功能。使用JMeter进行WebSocket接口和性能测试时,需安装特定插件并配置相关参数,如服务器地址、端口号等,还可通过CSV文件实现参数化,以满足不同测试需求。
167 7
Jmeter实现WebSocket协议的接口测试方法