中文竞技场模型体验

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 本次体验我选了三个比较考验专业技能的方向。分别是:代码相关、知识常识相关和NLP专业领域。这些模型对于一些基础得问题回答的还是很不错的,但是掌握的知识广度不够,深度还是可以的。更有甚者,一个模型遇到不会的问题,直接给我返回乱码,这个就要批评一下程序员了,怎么可以让用户看到这种场面呢?

本次体验了三个方向,共使用了六个模型。分别是代码相关、知识常识相关和NLP专业领域,都是专业性比较强得问题。这六个模型中有表现好的,当然也有一些确实存在致命的问题。下面我就这三个方向,展开详细的分析:

代码相关:

  1. 首先我们先来看一下具体的问答,用到的模型分别为:Model A: ChatPLUG-100Poison、Model B: billa-7b-sft-v1
    图片.png
    图片.png

  2. 本次我共问了三个问题。一个python相关、两个java相关。其中python相关的比较基础,两个模型回答得都挺不错,java相关的常见题目也基本都回答出来了,其中模型B的答案较详细。最后不太常见的细节问题,两个模型都没有回答出来,而且都乱码了,这一点我认为非常的不好,如果这个题没有在模型的题库中,可以给一个较为友好的提示,直接乱码,实在不好。

知识常识相关

  1. 我们仍然先来看一下,各个模型的表现情况。本次用到的模型:Model A: qwen-7b-chat-v1、Model B: moss-moon-003-sft-v1
    图片.png
    图片.png
  2. 第一道题是关于数学的等差数列,我直接用的是系统推荐的题目。很显然,这道题回答的还是非常不错的。区别的话,就是Model B: moss-moon-003-sft-v1回答得要更为详细,更用于看懂,而Model A: qwen-7b-chat-v1则需要有些基础的人看。
  3. 第二个问题,是我们日常生活观察到的。两个模型都回答错了,而且错得一致,在这方便还是需要加强的。
  4. 第三个问题,是医学类的常识,两个模型表现得都很好。

    NLP专业领域相关

  5. 本次测试呢?两个模型的差异就比较大了。用到的模型有:Model A: qwen-7b-chat-v1 、Model B: belle-llama-13b-2m-v1。下面我们具体看下:
    图片.png
    图片.png
  6. 第一个问题,仍然是系统推荐的,基础数学相关的问题,两个模型都很棒,回答的都特别好。
  7. 第二个问题,是名著相关的,差异就表现出来了。Model A: qwen-7b-chat-v1仍然表现得很好,回答准确,抓住了问题的核心。Model B: belle-llama-13b-2m-v1这次表现得就超级不好,直接乱码了。
  8. 第三个问题,是中国得传统节日相关问题。Model A: qwen-7b-chat-v1虽然回答的过于简洁,但是也算抓住了问题的核心,Model B: belle-llama-13b-2m-v1则是,完全不知道我在问什么,回答得乱七八糟。

总结:总得来看,我们平时学习经常遇到的问题,像数学相关的都回答得不错,但是广度不够。但是生活上的小细节问题,或者在实际开发中要遇到得小问题,则是没有记录。还有对中国的传统文化了解得不够,国内的东西,这一点还是挺不好的。

相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
338 10
【中文竞技场】大模型深度体验与测评
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69927 5
|
人工智能 自然语言处理 Java
首次体验中文竞技场大模型体验!!!
我将分别从知识常识、中文游戏、NLP专业领域、代码相关、写作创作、人类价值观六大领域测评不同模型的效果,以及一些看法。
|
6天前
|
自然语言处理 C语言 Python
中文竞技场大模型评测
介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。
33 7
|
自然语言处理 知识图谱
中文竞技场模型体验
中文竞技场模型体验
354 0
|
自然语言处理
|
自然语言处理 UED
中文竞技场大模型体验
中文竞技场大模型体验
|
自然语言处理 程序员 数据库
用Modelscope 中文竞技场的测评体验分享
用Modelscope 中文竞技场的测评体验分享体验了三个场景,分别体验1系统默认的问题提交体验; 2.根据任务问题体验; 3.自主式提问题体验。就系统给出的答案进行评测。
2093 300