中文竞技场模型体验

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 本次体验我选了三个比较考验专业技能的方向。分别是:代码相关、知识常识相关和NLP专业领域。这些模型对于一些基础得问题回答的还是很不错的,但是掌握的知识广度不够,深度还是可以的。更有甚者,一个模型遇到不会的问题,直接给我返回乱码,这个就要批评一下程序员了,怎么可以让用户看到这种场面呢?

本次体验了三个方向,共使用了六个模型。分别是代码相关、知识常识相关和NLP专业领域,都是专业性比较强得问题。这六个模型中有表现好的,当然也有一些确实存在致命的问题。下面我就这三个方向,展开详细的分析:

代码相关:

  1. 首先我们先来看一下具体的问答,用到的模型分别为:Model A: ChatPLUG-100Poison、Model B: billa-7b-sft-v1
    图片.png
    图片.png

  2. 本次我共问了三个问题。一个python相关、两个java相关。其中python相关的比较基础,两个模型回答得都挺不错,java相关的常见题目也基本都回答出来了,其中模型B的答案较详细。最后不太常见的细节问题,两个模型都没有回答出来,而且都乱码了,这一点我认为非常的不好,如果这个题没有在模型的题库中,可以给一个较为友好的提示,直接乱码,实在不好。

知识常识相关

  1. 我们仍然先来看一下,各个模型的表现情况。本次用到的模型:Model A: qwen-7b-chat-v1、Model B: moss-moon-003-sft-v1
    图片.png
    图片.png
  2. 第一道题是关于数学的等差数列,我直接用的是系统推荐的题目。很显然,这道题回答的还是非常不错的。区别的话,就是Model B: moss-moon-003-sft-v1回答得要更为详细,更用于看懂,而Model A: qwen-7b-chat-v1则需要有些基础的人看。
  3. 第二个问题,是我们日常生活观察到的。两个模型都回答错了,而且错得一致,在这方便还是需要加强的。
  4. 第三个问题,是医学类的常识,两个模型表现得都很好。

    NLP专业领域相关

  5. 本次测试呢?两个模型的差异就比较大了。用到的模型有:Model A: qwen-7b-chat-v1 、Model B: belle-llama-13b-2m-v1。下面我们具体看下:
    图片.png
    图片.png
  6. 第一个问题,仍然是系统推荐的,基础数学相关的问题,两个模型都很棒,回答的都特别好。
  7. 第二个问题,是名著相关的,差异就表现出来了。Model A: qwen-7b-chat-v1仍然表现得很好,回答准确,抓住了问题的核心。Model B: belle-llama-13b-2m-v1这次表现得就超级不好,直接乱码了。
  8. 第三个问题,是中国得传统节日相关问题。Model A: qwen-7b-chat-v1虽然回答的过于简洁,但是也算抓住了问题的核心,Model B: belle-llama-13b-2m-v1则是,完全不知道我在问什么,回答得乱七八糟。

总结:总得来看,我们平时学习经常遇到的问题,像数学相关的都回答得不错,但是广度不够。但是生活上的小细节问题,或者在实际开发中要遇到得小问题,则是没有记录。还有对中国的传统文化了解得不够,国内的东西,这一点还是挺不好的。

相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
350 10
【中文竞技场】大模型深度体验与测评
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69964 5
|
人工智能 自然语言处理 Java
首次体验中文竞技场大模型体验!!!
我将分别从知识常识、中文游戏、NLP专业领域、代码相关、写作创作、人类价值观六大领域测评不同模型的效果,以及一些看法。
|
2月前
|
自然语言处理 C语言 Python
中文竞技场大模型评测
介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。
73 7
|
算法 安全 测试技术
中文竞技场大模型体验报告
本次测评的主要目标是评估中文竞技场提供的大模型在写作创作相关、知识常识和代码相关方面的表现。我们进入“中文竞技场”体验了这些模型,并在以下方面进行了测试和评估。
236 30
|
自然语言处理 知识图谱
中文竞技场模型体验
中文竞技场模型体验
365 0
|
自然语言处理
|
自然语言处理 UED
中文竞技场大模型体验
中文竞技场大模型体验

热门文章

最新文章