前言:
ModelScope中文竞技场是一个创新性的应用测试平台,专注于评估和提升自然语言处理(NLP)模型在中文语境下的性能。该平台为研究人员、工程师和数据科学家提供了一个丰富多样的测试环境,用于测试和比较不同NLP模型在各种任务上的表现。这也使的我们了解它们在不同任务上的相对表现,选择更适合使用场景的回答。下面👇就是基于该应用测试结果(使用到的对话类型为:代码相关,人类价值观,NLP 专业领域):
1.代码相关:
- 在该对话类型中,很明显的感觉到模型A侧重于对文字的解析回答,较少的出现专业名词这也能让更多人可以简单的理解一些,而模型 B 则是更侧重于学术性的回答,会有一些专业名词供学习者更容易的找到方向,这是在代码相关的对话类型中提供描述性问题所获得的回答,两者的风格也是明显区分了。
- 接下来是有关于代码实操类的问答两者模型的回答逻辑方向也是完全不同
👇👇👇👇👇👇
通过两者模型对于函数代码示例也可以看出两者在代码相关的对话类型中对于代码的专业水平的不同
相比而言,我是更加喜欢模型 B 在此类型中的回答,看代码也是更加舒服。
在通过代码相关的对话类型中的测试本以为模型 B 要按在模型 A 身上摩擦的时候,对其他对话类型测试时才发现事情没有那么简单,以下就简单分享下人类价值观和 NLP专业领域的对话测试:
2.人类价值观:
3.NLP专业领域:
(此时估计是模型 B 对于上下文的联系太过紧密,已经忘了该回答的是哪个问题)
在另外两类对话类型的测试中,两者模型的回答还是比较贴近的,只是模型 B 的稳定程度还是需要在提升。
总结:
这次大约花了十几分钟对ModelScope中文竞技场平台的三种对话类型测试,那么在语言模型不断涌现的当下,ModelScope中文竞技场以两种模型共同对话的方案,确实是眼前一亮,但是在于模型质量方面,只是符合预期,并没有太多的惊喜,无论是对话的反应能力,对话内容丰富程度等,都是可以提升的方面。