中文竞技场大模型测评

简介: 代码相关、写作创作相关、中文游戏

中文竞技场大模型测评

此次参与“中文竞技场”体验中文大语言模型,本次测评以在代码相关、写作创作相关、中文游戏三方面的模型进行了测评。

  1. 中文游戏模型方面
    参与问题包含以下三个问题:
    问题1:请解读以下成语并给出其中蕴含的寓意:“围魏救赵".回答如图
    64af08b365e78d1d4b6e68a9cb034e2.png
    问题解读内容不切合题意,不知道从哪里获取的信息,差评(例如A模型:指为了攻击魏国的敌人,而先攻击赵国的盟友。B模型:赵国向邻国齐国求救,但齐国不愿意出兵帮助赵国。赵国又向邻国楚国求救,但楚国也不愿意出兵。最后,赵国向邻国韩国求救,韩国同意派兵救援。)
    问题2:请解读以下成语的含义并给出例句:五十步笑百步。回答如图
    db141602d8c8e2b5bbf877cddab4ad7.png
    问题解读内容同样不切合题意,胡说八道(例如A模型回答例句与题意丝毫不搭:例句: 小明因为自己的错误而自以为是,而小红却能够看到他的错误,并嘲笑他。B模型与实际丝毫不搭:意思是在某个方面比别人强,但仍然不如最优秀的人。这个成语源自于《论语》中的故事。)
    问题3:使用以下谚语:"授之以鱼不如授之以渔”,写一段说明谚语含义的故事。回答如图855ce4e06d80e701c9622eb4838d793.png
    此处问题回答模型A好些,符合题意,模型B报错,不做评判
    057e8772b71d4d2dedbb1d8c9cb49c7.png

综上对比,相对来讲此两个模型对于中文游戏模型方面两模型相比模型A略显突出,但其实都并不出色

  1. 写作创作相关模型方面
    参与问题包含以下三个问题:
    问题1:请扮演一个古代武将,在一场紧张的战斗中发表鼓舞士气的演讲。在演讲中要提到对敌人力量有信心,坚决捍卫家园,以及调动战士们的勇气和决心。回答如图
    de6bd9c8bfd017d9d104620829246a5.png
    此处问题回答都写出了题意中要求的鼓舞士气,坚决捍卫,风格不同,平分秋色
    问题2:请依据以下的引子续写一篇故事: 在一片郁郁葱葱的森林中,有一座古老的石塔。这座石塔异常神秘,传闻里面隐藏着一件珍贵的宝物。然而,许多勇士曾经进入石塔,却再也没有出来。你是一名勇敢的冒险者,请继续这个故事,揭开石塔的秘密,并决定你的命运。回答如图

15411e9fed8dbec9a66b2639b9e6ff8.png
此处问题回答模型B写了半天,毫无逻辑,通过内容可看出丝毫没有理解问题的意思。模型A写的很不错。很棒!!! !
问题3:请以一名古代武林高手的身份,为观众讲述你历经训练和战斗的心路历程。你可以描述你的成长经历、遇到的困难以及如何突破自己的局限。回答如图
ecc0c654536b4978e73b56f60a00a40.png
此处问题回答两模型回答相比较,A模型更出色些
综上对比,相对来讲此两个模型对于写作创作相关模型A模型更好

  1. 代码相关模型方面
    参与问题包含以下三个问题:
    问题1:请使用以下常用库之一,查询如何在Python中进行文件操作:os、shutil、pathlib。回答如图
    35af260966fa9807611930f7efde81a.png
    此处问题回答对于模型B,不知道引入这个shutil的目的,答案没有对shutil进行任何调用。相对来讲模型A更出色些
    问题2:请解释以下错误信息的原因:
    错误信息:'IndexError: list index out of range'
    目标:你需要通过分析错误信息来解释为什么会出现这个错误。回答如图

    8db364d25ef5072eb01536a9d5205d3.png
    此处问题回答模型A报错,不予评价。模型B写的基本符合
    问题3:请使用Python代码编写一个邮件定时发送。回答如图
    8db364d25ef5072eb01536a9d5205d3.png
    此处问题回答模型A报错,不予评价。模型B写的基本符合
    deb65466740b913208fe95fb6845b86.png

综上对比,相对来讲此两个模型对于代码相关模型方面两模型相比A模型报错不行,B模型可以

综上内容,由于对比相对来讲是两两模型对比。虽存在局限性,但部分问题仍需面对。对于中文游戏成语解读,回答并不出色,三个问题,其中两个不符合题意,内容回答可以算是胡编乱造;模型使用存在报错,可能网络或其他方面易受限。好的方面部分模型故事排版,语句使用很具参考价值;代码处理方面使用效果还不错。

目录
相关文章
|
Oracle Java 关系型数据库
Java(TM) Platform SE binary 已停止工作”的解决方法
Java(TM) Platform SE binary 已停止工作”的解决方法
1746 141
AppFlow:通过内网代理访问应用
在使用AppFlow时,若遇到因内部部署或IP限制导致的网络问题,只需准备一台可公网访问的机器,利用AppFlow的内网代理功能即可轻松解决。操作步骤包括:访问AppFlow控制台新建连接器,勾选“内网代理”并选择托管实例。对于RAM用户,需具备相应权限。开启后,所有请求将通过托管实例转发,实现源IP控制。
369 16
AppFlow:通过内网代理访问应用
|
Kubernetes 应用服务中间件 nginx
k8s基础使用--使用k8s部署nginx服务
本文介绍了Kubernetes中核心概念Deployment、Pod与Service的基本原理及应用。Pod作为最小调度单元,用于管理容器及其共享资源;Deployment则负责控制Pod副本数量,确保其符合预期状态;Service通过标签选择器实现Pod服务的负载均衡与暴露。此外,还提供了具体操作步骤,如通过`kubectl`命令创建Deployment和Service,以及如何验证其功能。实验环境包括一台master节点和两台worker节点,均已部署k8s-1.27。
1265 1
|
资源调度 前端开发 JavaScript
谈后端人眼里的 nvm、yarn、pnpm……
虽然我是做后端的,但也时常关注前端,只是最近觉得前端的各种工具名称太眼花缭乱了,nvm、yarn、pnpm、taro……
203 4
|
缓存 NoSQL 关系型数据库
《Redis:NoSQL演进之路与Redis深度实践解析》(一)
《Redis:NoSQL演进之路与Redis深度实践解析》(一)
107 0
|
安全 Linux Shell
SSH 命令完整实用指南 | Linux SSH 服务
【8月更文挑战第20天】
1791 0
|
分布式计算 Java Hadoop
简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行
简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行
293 0
|
算法 文件存储 计算机视觉
【YOLOv8改进】MobileNetV3替换Backbone (论文笔记+引入代码)
YOLO目标检测专栏探讨了MobileNetV3的创新改进,该模型通过硬件感知的NAS和NetAdapt算法优化,适用于手机CPU。引入的新架构包括反转残差结构和线性瓶颈层,提出高效分割解码器LR-ASPP,提升了移动设备上的分类、检测和分割任务性能。MobileNetV3-Large在ImageNet上准确率提升3.2%,延迟降低20%,COCO检测速度增快25%。MobileNetV3-Small则在保持相近延迟下,准确率提高6.6%。此外,还展示了MobileNetV3_InvertedResidual模块的代码实现。
|
容器 Kubernetes 应用服务中间件
|
安全 算法 大数据
722@上海一周年Meetup【突破数据边界,开启探索之旅】
🕙7 月 22 日,🕹️上海科学会堂,隐语开源社区邀请多位权威技术专家、前沿技术探索者们,包括来自华为、蚂蚁集团、上海交通大学、浙江大学、互联网可信认证联盟、国泰产险、零数科技、华控清交、复旦大学等企业高校,分享他们对隐私计算的独到见解,也将在现场分享隐语 1.0 发布后隐语开源社区的升级、开源蓝图与社区最新规划。