中文竞技场大模型测评-体验版

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 个人测评

一、背景介绍

非常感谢您提供中文竞技场的详细场景介绍以及多个强大的AI模型,针对不同模型提出了问题并进行了测试。这里是我的评测文章:

中文竞技场是在modelscope魔搭搭建的ai语言对话,包含四套模型如下:

模型一:ChatGLM-6B模型介绍 ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

模型二:moss-moon-003-sft

模型三:BiLLa: A Bilingual LLaMA with Enhanced Reasoning Ability BiLLa 是开源的推理能力增强的中英双语 LLaMA 模型. 模型的主要特性有: 较大提升 LLaMA 的中文理解能力, 并尽可能减少对原始 LLaMA 英文能力的损伤; 训练过程增加较多的任务型数据, 利用 ChatGPT 生成解析, 强化模型理解任务求解逻辑; 全量参数更新, 追求更好的生成效果. Github: https://github.com/Neutralzz/BiLLa 以下是经过有限的评测分析得出的结论: BiLLa-7B-LLM 中英语言建模能力显著优于 Chinese-LLaMA-7B; BiLLa-7B-SFT 中文推理能力显著优于 BELLE-LLaMA-Ext-7B 等模型; 由GPT4打分, BiLLa-7B-SFT 在英文指令上得分显著高于 ChatGLM-6B, 中文得分持平, 但解题与代码得分更高.

模型四:BELLE-LLaMA-13B-2M 搭建的ai对话包含双模型匿名对话、模型自动对话、单模型对话,三种对话模式,用了很多开源的ai对话模板 属于非常厉害的组合并且外接了很多ai对话模型,我们点击立刻进入进行测评:

image.png

二、实验步骤

实验第一个双模型匿名对话,选择中文游戏,会自动生成一个问题,我们直接点击发送即可

image.png

我们采用单点生成模式,对两个模型进行多次生成(10次左右)发现模型a稍微有一些问题,生成的文章内容均是乱码中文,或者只能理解一部分,而模型B生成的内容较为准确,也符合提问人的要求,我们来切换不同的对话类型,试一下其他的对话情况,清除对话历史后可以选择其他对话类型

中文游戏

image.png

写作创作相关,我们实验了哈利波特的阅读理解(5次),A模型更能写出优质的问答,而模型B则不能提供相关的素材

image.png

代码相关,常用库查找字符串中特定字符的索引位置:re,string,collections,io(5次)显然模型A比模型B的准确率更高一些,输出的内容也符合要求些

image.png

常用知识,问一道数学题(5次)这个我生成了三遍都不太满意两个模型给的答案,好像对传统的数学问题,这两个模型并不是很擅长,A类不能把汽车识别为单辆,B类不能根据要求计算,相比之下A稍微好一些

image.png

人类价值观,问一下隐私方面的问题(5次),这两个都比较强,解析也很类似,都挺棒的

image.png

NLP专业方向,对多个专业方向进行测评(5次)测评A模型更能解析出相关NLP的意思,但是B模型不太行

image.png

经过近50次的对比测试,对比表格如下:(仅代表测试期间数据,不能代表实际情况


中文游戏

写作创作相关

代码相关

常用知识

人类价值观

NLP专业方向

A模型

B模型

模型自动对话

对话训练10次以上,模型B稍微感觉有点问题,但是总体还是把相关的语言组织出来了,相较于模型A还是差了一些

image.png

单语言模型

通过对以下14个模型进行抽检测试结果如下


ChatGLM2-6B: 中英双语对话模型,由清华大学开发 BiLLa-7B-SFT: 推理能力增强的中英双语LLaMA模型,由独立研发者开发 Ziya-LLaMa-13B-v1: 姜子牙通用大模型,由IDEA研究院开发
ChatPLUG-initial: 初始开放域对话模型,由阿里开发 BELLE-LLaMa-13b-2m-v1: 中文对话大模型,由链家开发 moss-moon-003-sft: 支持中英双语和多种插件的开源对话语言模型,由复旦大学开发
ChatYuan-large-v2: 支持中英双语的功能型对话语言大模型,由复旦大学开发 ChatPLUG-100Poison: #100PoisonMpts治理后模型,由阿里开发 Baichuan-13B: Baichuan-13B-Chat为Baichuan-13B系列模型中对齐后的版本
Chinese-Alpaca-plus-13B: 中文LLaMA-Plus, Alpaca-Plus 13B版本 ChatFlow-7B: ChatFlow中文对话模型 Phoenix-7B: 由港中文大学(深圳)及深圳市大数据研究院四月发布的多语言大模型
RWKV-4-Raven-7B: 由RWKV(100% RNN)语言模型提供支持的中文对话模型 Qwen-Chat-7B: 阿里云研发的通义千问大模型系列的70亿参数规模的模型


单语言对话(5次)语言分析还是非常到位的,支持第一个

image.png

三、部分总结体验

写作创作领域

在这个领域中,我让模型分别为我自动创作一段小说开头。ChatGLM-6B生成的文字通顺流畅,段落结构合理,但是想象力不足;moss-moon-003-sft的创作能力较弱,生成的内容平淡无奇;BELLE-LLaMA-13B-2M的创作语言丰富多彩,段落逻辑清晰,想象力较强。

代码相关领域

在这个领域中,我要求模型给出获取当前时间的Python代码。ChatGLM-6B直接给出正确可运行的代码;moss-moon-003-sft生成的代码存在明显语法错误;BELLE-LLaMA-13B-2M给出的代码语法正确但逻辑有误,不能达到预期效果。

知识常识领域

在这个领域中,我让模型解释闰年的含义。ChatGLM-6B给出了简单的定义;moss-moon-003-sft对这个词没有理解;BELLE-LLaMA-13B-2M给出了比较完整和准确的解释。

通过上述测试,我发现不同的AI模型确实各有所长。ChatGLM-6B在代码生成方面表现突出;BELLE-LLaMA-13B-2M在创作和知识讲解上更胜一筹;moss-moon-003-sft的能力相对较弱。这为我们的AI开发提供了非常好的对比和启发。中文竞技场提供了难得的评测机会,让我们更加全面地了解不同AI的优劣。这次评测对我来说也是一个宝贵的学习经历。再次感谢主办方给予我这次独特的评测体验!



目录
相关文章
|
存储 Oracle Java
分代 ZGC 详解
本文主要介绍JDK21中的分代ZGC详解,包括染色指针、内存屏障等核心概念及ZGC JVM参数介绍 ZGC(Z Garbage Collector)是Java平台上的一种垃圾收集器,它是由Oracle开发的,旨在解决大堆的低延迟垃圾收集问题。ZGC是一种并发的分代垃圾收集器,它主要针对具有大内存需求和低停顿时间要求的应用程序。
分代 ZGC 详解
|
Linux C语言 Windows
荔枝派Zero(全志V3S)一键镜像烧录(windows和linux下)
搞到了一块荔枝派Zero,其CPU为全志V3S, ARM Cortex-A7, 最高1.2GHz,不得不说这小东西能达到这么高的主频真是让我大为震撼,废话不多说,先让其跑起来,证明板子是好的
867 0
|
消息中间件 数据可视化 Java
RocketMQ保姆级教程
大家好,我是三友~~ 上周花了一点时间从头到尾、从无到有地搭建了一套RocketMQ的环境,觉得还挺easy的,所以就写篇文章分享给大家。
RocketMQ保姆级教程
|
Java 关系型数据库 数据库连接
MyBatis Plus 解决大数据量查询慢问题
MyBatis Plus 解决大数据量查询慢问题
|
消息中间件 弹性计算 Java
RocketMQ一站式入门使用
从源码编译、部署broker、部署namesrv,使用java客户端首发消息等一站式入门RocketMQ。
|
监控 Linux
在Linux中,如何查看系统运行时间?
在Linux中,如何查看系统运行时间?
ly~
|
供应链 监控 搜索推荐
大数据的应用场景
大数据在众多行业中的应用场景广泛,涵盖金融、零售、医疗保健、交通物流、制造、能源、政府公共服务及教育等领域。在金融行业,大数据用于风险评估、精准营销、反欺诈以及决策支持;零售业则应用于商品推荐、供应链管理和门店运营优化等;医疗保健领域利用大数据进行疾病预测、辅助诊断和医疗质量评估;交通物流业通过大数据优化物流配送、交通管理和运输安全;制造业则在生产过程优化、设备维护和供应链协同方面受益;能源行业运用大数据提升智能电网管理和能源勘探效率;政府和公共服务部门借助大数据改善城市管理、政务服务及公共安全;教育行业通过大数据实现个性化学习和资源优化配置;体育娱乐业则利用大数据提升赛事分析和娱乐制作水平。
ly~
2557 2
|
人工智能 自然语言处理 数据可视化
书生·浦语2.5开源,推理能力再创新标杆,怎么玩都在这里了!
上海人工智能实验室秉持“以持续的高质量开源赋能创新”理念,在为社区始终如一地提供高质量开源模型的同时,也将继续坚持免费商用授权。
|
前端开发 JavaScript
前端 JS 经典:文件流下载
前端 JS 经典:文件流下载
831 1
|
XML Java Android开发
Android App开发中使用Glide加载网络图片讲解及实战(附源码 简单易懂)
Android App开发中使用Glide加载网络图片讲解及实战(附源码 简单易懂)
602 0

热门文章

最新文章