中文竞技场大模型测评

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力

一、中文竞技场大模型体验方法及介绍
(1)体验大模型的方法

  1. 点击下方链接,进入中文竞技场大模型
    https://modelscope.cn/studios/LLMZOO/Chinese-Arena/summary?spm=a2c6h.28340574.J_3422099310.1.5cec2fd5UqtfuJ
  2. 点击右上角的“登陆/注册”,以便注册一个魔搭社区的账号
    image.png
  3. 点击“注册”
    image.png
  4. 填写基本信息后即可注册完成,随即可以用该账号登陆
    image.png

(2)中文竞技场大模型简介
1. 三大板块
这三大板块,分别是“双模型匿名对话”、“模型自动对话”以及“单模型对话”,下面逐一介绍:
image.png
双模型匿名对话:双模型是指一次提问,两个模型分别作答;匿名是指,我们在评价模型之前,不知道A模型和B模型对应哪个具体的模型;对话是指人类与模型之间的对话,而不是两个模型互相对话

image.png
模型自动对话:我们给出一个问题,将由其中一个模型代为向另外一个模型提问。随后便会开启连续对话,如此反复,直至对话结束,由我们评价对话的质量,哪个的回答更优秀

image.png
单模型对话:我们可以预先选择哪个模型回答我们的问题
2. 六大领域
六大领域分别是:写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域
image.png
我们选择其中一个领域后,将会自动生成文本,如果我们对文本内容不满意,可以点击“换一换”会重新生成,也可以手动修改,修改完成后点击“发送”即可。
此外,我们还可以对模型回答质量进行评价,这可能会促进模型的优化
image.png

3.11个大模型参赛大模型
11个大模型如下图所示,点击倒三角可以指定哪个模型回答我们的问题
image.png

二、中文大模型测评
(1)知识常识领域,准备了5个问题,如下图
image.png

第一个问题:小面积热水烫伤如何紧急处理
image.png

下面我们看看大模型的表现
image.png
由上图可知,A、B两个模型回答都不错,提到了用凉水冲洗伤口,给烫伤部位降温,环节疼痛,减少组织损伤。但是关于是否用冰敷这一块,两个模型产生了冲突。那么就衍生了第二个问题
第一个问题的衍生问题:小面积热水烫伤是否可以用冰敷
image.png
A模型坚持冰敷有害,但B模型认为冰敷有利。通过网上搜索得知,有赞同冰敷的,也有反对冰敷的,由于本人不是医学专业,对比不发表评论。但两个模型提出的用冷水冲洗烫伤部位的做法是符合生活经验的。所以认为两个模型的都不错
image.png
评价后,可以看到A和B分别对应的具体模型是什么。

问题背景
这源于一次深夜起来喝水,不小心被热水烫伤。当是由于夜深了,周围的药店已经关闭,且医院搭乘公交车要半小时,但是公交车已经停止运营了。所以想在网上找办法应急处理下,但网上的回答鱼龙混杂,有说涂酱油的,有说用芦荟的,也有说去医院的,找了挺久才找到答案。所以想问问大模型家庭紧急应急方面的事情应该怎么处理。另外,需要温馨提示下,用户不得将大模型的回答直接用于医疗等专业场景,需要慎重考虑,必要时咨询专业人员。
评分
baichuan-13b-chat-v1得分:0.5
qwen-7B-chat-v1得分:0.5
理由
由于两个模型都回答到了凉水降温,但是否冰敷有歧义,不能算完全得分,所以各得0.5分

第二个问题:突然感觉牙齿很痛,可能是蛀牙引发,但是由于某种原因无法马上到医院,怎么临时止痛
image.png

image.png
如上图所示,两个模型都提到了布洛芬,根据生活经验,牙痛的时候特别的痛,含冷水或冰敷的效果,简直微不足道。由于都提到了止痛药,暂且当两个回答都正确

问题背景
这源于我同事上班时间突然智齿痛,并且稍后与客户有一个重要会议没法离开,我建议同事可以线上买点布洛芬来缓解牙痛,后面同事的牙痛才得以缓解。另外,需要温馨提示下,用户不得将大模型的回答直接用于医疗等专业场景,需要慎重考虑,必要时咨询专业人员。
评分
baichuan-13b-chat-v1得分:0.5
qwen-7B-chat-v1得分:0.5
理由
由于两个模型都回答到了用布洛芬等不具备依赖性的药物,但是又回答一些作用不大的方法,所以各得0.5分

第三个问题:在工作两年后,公司以不胜任工作为由,通过邮件发送解除劳动合同通知书,怎么处理
image.png

image.png

A模型的回答,没有搞清楚提问的对象是被辞退的员工;B模型的回答不太符合职场经验与法律常识。

看看其他模型的回答:
image.png
qwen-7b-chat-v1的回答,比上两个模型好,提到了公司要提前一个月通知员工这个点,以及协商不成提起仲裁等。但由于回答不够完备,所以得0.5分

image.png
既不符合工作经验,亦不符合法律常识

image.png
有引用法律条款,但与题干不符

image.png
这个回答提到了保留证据,挺值得称赞的,另外是仲裁时效是一年而不是一个月。该回答不够精准,所以baichuan-13b-chat-v1只得0.5分

image.png
提到了提前通知,但没有提到具体的时间,不得分

image.png
不太具有参考价值。

image.png
不太具有指导意义

image.png
既不符合工作经验,亦不符合法律常识

image.png
不太具有指导意义

image.png
既不符合工作经验,亦不符合法律常识

问题背景
这源于朋友被公司辞退了,属于恶意辞退。在那段时间和朋友一起了解到较多的法律知识,我觉得我们劳动人民,应该掌握维护自身权益的方法。
另外,需要温馨提示下,用户不得将大模型的回答直接用于法律等专业场景,需要慎重考虑,必要时咨询专业人员。
评分
baichuan-13b-chat-v1得分:0.5
qwen-7B-chat-v1得分:0.5
理由
回答虽然不够全面,但是也分别有可取之处。

以下是基于个人了解,给出答案,仅供参考,不作为法律建议
关于:“在工作两年后,公司以不胜任工作为由,通过邮件发送解除劳动合同通知书,怎么处理”这个问题,所有模型的回答,都没有交出令人满意的答案。下面我们来剖析下这个问题。

问题分析:根据题干“工作两年后”可以判断出,员工是可以胜任工作,不然也不会工作了两年;此外,根据法律常识,不胜任工作,需要先给出评估报告证明不胜任工作,这明显与已经胜任工作了两年的事实不符;其次,不胜任工作需要再培训,仍不胜任工作才能解除劳动合同,这不符合劳动法。最后,公司行使单方解除权一旦触达接受者,立即生效,我们作为员工已经无法改变什么。其次,一般如果还可以挽回或者改变,公司都会先与员工沟通,让员工调整,而不是直接出正式的邮件解除劳动合同。正式的邮件也恰恰表明了公司的管理层已经做出了一致的决定,而这时的我们应该放弃幻想,积极斗争,做好维权的准备。

答案:
1.拒绝签署一切“自愿离职”、“协商一致解除劳动合同”等性质的文件,避免公司将单方解除劳动合同定性为协商一致解除劳动合同
2.准备证据材料,例如考勤记录、劳动合同、工资条等证明劳动关系、月工资、工作年限等等,准备好材料后,到仲裁委申请仲裁
3.积极寻找工作

第四个问题:在餐馆吃到了蟑螂怎么处理
image.png

image.png
这两个模型同时都出现了部分语义不通,繁体字等,似乎在部分区域出现了乱码

image.png
点开看到是以上两个模型,看看其他模型的回答

image.png
以上回答,并没有最大限度的保障消费者的权益

image.png
以上回答,不太具有参考价值

image.png
以上回答,未能正确理解题意

image.png
以上回答,并没有最大限度的保障消费者的权益

image.png
以上回答,并没有最大限度的保障消费者的权益

image.png
以上回答有点奇怪,让我们尽快离开

image.png
以上回答提到了所有赔偿,也提到了尽快离开餐馆,感觉挺奇怪

image.png
以上回答有点莫名其妙

image.png
以上回答较为笼统,没有最大程度保护消费者的权益

image.png
这个回答,没有最大程度保护消费者的权益

问题背景
这源于题主一次真实经历,在一个连锁的餐馆中,吃饭的时候,无意中看到碗底有一个蟑螂,当是只是让店员更换一份。后面了解到食品安全法后,才知道自己没有维护好自己的合法权益。
另外,需要温馨提示下,用户不得将大模型的回答直接用于法律等专业场景,需要慎重考虑,必要时咨询专业人员。
评分
均不得分
理由
未能回答到点子上。

以下是基于个人了解,给出答案,仅供参考,不作为法律建议
关于:“在餐馆吃到了蟑螂怎么处理”这个问题,所有模型的回答,都没有交出令人满意的答案。下面我们来剖析下这个问题。

问题分析:根据题干“吃到了蟑螂”可以判断出,消费者的权益已经被侵害,因为蟑螂本不应该出现在餐桌上,不符合食品安全法的要求。所以我们需要做的是维护自身权益和保护自身健康

答案
1.根据食品安全法的要求,可以要求商家赔偿一千元,或商品价格的10倍,消费者可以自行判断哪个条件更为有利
2.持续观察自身的健康状况,出现腹泻、呕吐或食物中毒等迹象及时到医院就医

第六个问题:怎么判断黄金的真假,及纯度
image.png

image.png
两个模型的回答,不太具备实操性。且黄金质地较软,但是A模型却说,真黄金不容易有划痕,感觉与实际不符。

看看其他模型的回答:
image.png
这个模型也出现了划痕错误

image.png
这个模型的回答,比较笼统

image.png
这个模型的回答,一方面光从外观上不易判断黄金真假;另一方面,专业的仪器对于普通人来说,不易获得。

image.png
这个模型的回答,操作起来不够便利

image.png
这个模型的回答,没有给出具体的操作步骤

image.png
这个模型的回答,出现了划痕错误

image.png
这个模型的回答,出现了黄金具有磁性的错误

image.png
这个模型的回答,对于普通人来说,不太具有实操性

image.png
这个模型的回答,出现了黄金硬度较高的错误

image.png
这个模型的回答,出现了黄金不导电的错误

image.png
这个模型的回答,对于普通人来说,不太具有实操性

问题背景
这源于朋友结婚,他们说要去深圳水贝市场买黄金,而水贝市场的商家由于不是大品牌,所以说不准黄金是否是足金。带着这个疑惑,到网上搜寻大量的判断方法,最终找到了一个可能相对靠谱的判断黄金真假及含金量的方法。
另外,需要温馨提示下,用户不得将大模型的回答直接用于法律等专业场景,需要慎重考虑,必要时咨询专业人员。
评分
均不得分
理由
未能回答到点子上。

以下是基于个人了解,给出答案,仅供参考,不作为专业建议
关于:“怎么判断黄金的真假,及纯度”这个问题,所有模型的回答,都没有交出令人满意的答案。下面我们来剖析下这个问题。
问题分析:这里有一个隐含的条件是作为非专业的普通人,如何判断黄金的真假和纯度。因为专业的人有专业的仪器,我们普通人专门买仪器就没有这个必要。

答案
1.用精度精确到小数点后两位的电子秤,秤下黄金的重量(非空心的黄金)
2.将一杯水放置在电子秤上,并将电子秤计数归零后,用发丝将金首饰完全浸没在水中,注意不要接触到杯子壁和杯子底部。由于水的密度是1,所以测量得出的重量即为黄金的体积
3.用步骤1测量到黄金的质量除以体积,得到了待测物体的密度。而黄金的密度为19.32g/cm³,如果计算的数值与黄金的密度较为接近,那么大概率是真的黄金,若密度越接近19.32g/cm³则表示纯度越高。另外,购买黄金应该选择正规的渠道。
小结
在知识常识领域,以下两个模型并列区域第一:
baichuan-13b-chat-v1区域累计得分:1.5
qwen-7B-chat-v1区域累计得分:1.5

(2)代码相关领域,准备了4个问题,如下图
image.png

第一个问题:用python 3.0写一个阿里云函数计算的代码,要求可在阿里云函数计算上正常执行,需求如下:获取某URL页面中黄金的价格,如果获取的黄金的价格低于360时,返回true,否则返回false
image.png

image.png

A模型执行结果
image.png

B模型执行结果
image.png

两个模型都未执行成功,所以都不得分。
看看其他模型的回答:

image.png
执行存在如下报错
image.png

向大模型反馈错误,看看大模型如何改进代码
image.png

多次尝试后,发现大模型并不会根据反馈去修复代码

问题背景
这源于2020年的黄金降价,黄金降价时,我并不知道,进而错过了黄金的投资机会。所以我就用python写了代码,并在阿里云函数计算中运行,当黄金降价时,我便会收到通知。慢慢的我发现,我除了关心黄金的价格,我还关心车牌摇号是否中标,指数基金是否处于低估值等等。每次的编程调试都会耗费大量的时间,所以我想试试大模型能否根据我的中文描述,进行编程以达到我的需求
评分
均不得分
理由
一方面是无法正常运行,另外一方面,代码没能根据反馈修正错误。

第二个问题:用python 3.0写一个阿里云函数计算的代码,要求可在阿里云函数计算上正常执行,需求如下:写一个可以用A邮箱发送邮件到B邮箱的代码,并提供使用说明
image.png

image.png
B模型直接报错,看看A模型是否执行成功
image.png
执行结果仍未成功,试试反馈错误代码看看是否会改进

image.png
大模型让我导入包,但是按以往的经验,并不需要这么麻烦。

问题背景
由于大模型是否可以写出综合场景的复杂代码,所以简化要求,只要求可以正确发送邮件,看看大模型的表现
评分
qwen-7B-chat-v1得 0.5分
理由
qwen-7B-chat-v1的回答,有可能导入包后可以成功执行,但过于实现方法繁琐,所以只得0.5分

第三个问题:使用yaml写一个阿里云OOS的模板代码,要求可以在阿里云OOS上正常执行,需求如下:将阿里云ECS磁盘id为xx的磁盘的名字改成mydisk
image.png

image.png
A模型的回答出现了“胡言乱语”,B模型的回答也不符合OOS的语法结构

看看其他模型的回答:
image.png
不符合OOS的语法结构

image.png
不符合OOS的语法结构

image.png
不符合OOS的语法结构,且出现了代码错误重复

image.png
我问的是阿里云的OOS模板,大模型的回答却说是AWS的解决方案,不正确

问题背景
这是真实的业务场景,由于集团公司被收购,所有阿里云服务器的命名和管理需要符合总公司的要求,所以需要将阿里云上所有的磁盘名称修改。目前阿里云的OOS模板只能手动一个个修改,无法批量修改,很不方便。所以自己写了一个OOS模板,但是由于从了解语法到写出OOS模板,再到测试通过,耗费时间太长,所以想看看大模型能不能直接帮忙编写OOS模板。虽然已经对需求进行了简化,但大模型仍未能正确写出。
评分
均不得分
理由
无一例外,都不能在OOS上正常运行。

第四个问题:使用yaml写一个阿里云OOS的模板代码,要求可以在阿里云OOS上正常执行,需求如下:将实例名称为xx的ECS服务器关机
image.png

image.png
均不符合OOS的语法要求

问题背景
为了节省成本,集团要求批量关闭测试环境下的按量付费的ECS实例。希望能通过实例ID一键给所有的实例关机。
评分
均不得分
理由
无一例外,都不能在OOS上正常运行。

小结
在代码相关领域,以下模型区域第一:
qwen-7B-chat-v1区域累计得分:0.5

(3)人类价值观领域,准备了4个问题,如下图:

image.png

第一个问题:高考的对于整个社会来说有什么意义
image.png

image.png

两个模型的回答都不错,我更喜欢A模型表达方式,更加合理具有逻辑性。

ChatPLUG-100Poison 得分:1

看看其他模型的回答:

image.png
这个模型的回答也挺好
qwen-7B-chat-v1得分:1

image.png
这个模型的回答挺赞的
phoenix_inst_chat_7b_v1 得分:1

问题背景
高考是人生的重要阶段,我也是工作多年后,才想明白。那时候的我,只是被推着走,考个好学校找个好工作,并没有认真思考过自己的人生,也没有思考过高考对于我们来说的价值。现在的我看来,高考一个方面实现所有考生,无论贫富都有一次相对平等的竞争机会,体现了公平性;另外一方面就是资源分配,让优秀的人才到更好的平台去实现的抱负,为祖国的伟大复兴添砖加瓦。
评分
ChatPLUG-100Poison 得分:1
qwen-7B-chat-v1得分:1
phoenix_inst_chat_7b_v1 得分:1
理由
都提到了公平和人才选拔

第二个问题:你跟孩子说,明天就带你去游乐园玩。但是到了第二天,你发现便宜的游乐园要提前一个星期预约。这个时候,你会跟小孩说下次再去吧;还是买贵一点的游乐园门票,跟他说收拾一下,五分钟后出发
image.png

image.png
A模型没有理解我的意思,B模型直接答非所问

看看其他模型的回答
image.png
这个模型的回答相对上两个模型,就优秀太多。一方面,它知道贵的游乐园,大概率会更好;另一方面,也充分考虑了小朋友的感受。如果可以提到家长信守诺言,给孩子立了个好榜样,就更好了。

image.png
这个模型的回答,欠佳。只说结论,不说理由。这个回答只体现了家长的失信。

问题背景
一直觉得小孩子的教育问题,是每一位家长的必修课,但是却没有这门课程,全凭大家自由探索。这个问题恰恰是一个小朋友的教育问题,关键是家长要给孩子树立一个榜样,答应的事情要做到,正所谓人无信不立,即使承诺的对象是一个小孩,也应该恪守诺言。即便要买更贵的票,也要带孩子去玩,这便是信守诺言。父母是孩子的第一任老师,我们家长应该言传身教。孩子在游乐园的快乐当中,既获得了快乐,也学会了守信。
评分
qwen-7B-chat-v1得分:3
理由
该模型成功击败了其他模型,一枝独秀,击败的模型数量为3,所以得3分。

第三个问题:要怎么培养小朋友爱看书和爱运动的习惯
image.png

image.png
两个模型基本思路是提供对应的环境和培养兴趣为主,似乎有所欠缺。

看看其他模型的回答:
image.png
qwen模型的回答依旧很赞,一方面,提供环境培养兴趣;另一方面,家长以身作则,也多运动多读书,给孩子树立榜样。还是那句话,作为父母的要言传身教,以身作则。

image.png
这个回答,缺少父母以身作则,多运动多读书

问题背景
作为家长,我们培养孩子的兴趣爱好的时候,往往只是提供了环境,孩子有些时候是在外部驱动力,也就是我们家长的要求下做这些事情。然而更好的方式是内在驱动力,而内在驱动力,最影响深远的便是父母的言传身教,言行举止。如果父母也能热爱运动,热爱看书,想必孩子也会乐在其中。
评分
qwen-7B-chat-v1得分:3
理由
该模型的回答包含了父母以身作则,我认为是关键要素,所以更优于其他模型,击败的模型数量为3,所以得3分。

第四个问题:择偶的时,对方的什么特质最重要
image.png

image.png
最重要的特质应该是一个,这两个模型都回答了好几个特质

看看其他模型的回答
image.png
虽然和我想的不一样,但qwen的回答听严谨的,内容也有一定的道理

image.png
这个模型的回答也还行。

问题背景
择偶也是人生的重要抉择,有些人钟情于颜值、身材,有些人钟情于才华、涵养。那什么才是最重要的,最根本的呢,或许这是一个随着年龄段不断在变化的答案。对于目前的我而言,我的答案是善良。
评分
qwen-7B-chat-v1得分:0.5
理由
该模型与我心中的答案不同,但是它的回答比较严谨,所以得0.5分

我的答案:我觉得最重要的特质是善良,善良的人不会主动去伤害别人,他们更有原则,知道什么该做什么不该做,也有更高的道德水平,所以我认为善良是最重要的特质。

小结
在人类价值观领域,累计得分情况如下:
ChatPLUG-100Poison累计得分:2
phoenix_inst_chat_7b_v1累计得分:2
qwen-7B-chat-v1累计得分:8.5

区域第一的模型为:
qwen-7B-chat-v1累计得分:8.5

(3)写作创造相关领域,准备了4个问题,如下图:
image.png

第一个问题:相比优秀的服装设计师,AIGC 可以如何突破设计灵感的界限?是纯粹的机械语言还是一点点的灵光乍现?
image.png

image.png
两个模型在写作方面都很优秀,正确的理解的题目的意思,高水平的完成了写作。另外B模型更优秀一点,一个方面是因为它点题了,另一方面是B模型回答了问题中的两个疑问,而A模型回答了一个。

看看其他模型的回答:

image.png
这个模型的回答也挺好,稍微有点欠缺的是没有回答题目中的第二个疑问

image.png
这个模型似乎把AIGC误以为是人工智能服装设计师

评分
baichuan-13b-chat-v1得分:3
理由
审题更认真,回答了两个问题,更优于其他模型,击败的模型数量为3,所以得3分。

第二个问题:程序员有哪些约定俗成的“码德”?
image.png

image.png
相对而言,A模型的回答比B模型更优秀。原本以为大模型会理解不了“码德”这个词,没有想到A模型做到了,而且理解了“码德”的核心含义就是让代码可以在团队里面更易懂,更易于维护。相较而言,B模型的回答,有点答非所问了。

看看其他模型的回答:

image.png
这个模型的回答也挺好

image.png
这个模型的回答也不错

评分
billa-7b-sft-v1得分:1
qwen-7B-chat-v1得分:1
phoenix_inst_chat_7b_v1 得分:1
理由
都能正确理解题意,回答得不错

第三个问题:CentOS 停服后如何给世界更好选择? 龙蜥操作系统从技术创新到商业变现都走了哪些路?
image.png

image.png
管对而言,B模型的回答比A模型更好,但B模型不足的地方是,只回答了前面的问题,忽略了第二个问题,所以均不得分

看看其他模型的回答:

image.png
这个模型很赞,准确的回答了两个问题。

image.png
这个回答也不错,扣了题,但是内容稍显单薄

评分
qwen-7B-chat-v1得分:3

理由
该模型正确理解题目问的是两个问题,需要分别对应作答,所以更优于其他模型,击败的模型数量为3,所以得3分。

第四个问题:对程序员来说,技术能力和业务逻辑哪个更重要?
image.png

image.png
问题问的是,哪个更重要,两个模型的回答却是都很重要,不太符合题意,看看其他模型的回答

image.png
这个回答也没有给出结论,哪个更重要

image.png
这个也是,模型只是客观阐述了都重要,但没有说哪个更重要

评分
均不得分
理由
都没有针对谁更重要发表看法。

问题背景
因为我平时也会在阿里云开发者社区参与社区的话题互动,有些时候也会参考优秀的回答来丰富自己的观点,辅助我更好地进行写作,也希望大模型可以对我的写作有所帮助。以上的四个问题均为开发者社区的真实话题,令我惊讶的是,大模型的回答竟然如此的好。

小结
在写作创作领域,累计得分情况如下:
baichuan-13b-chat-v1得分:3
billa-7b-sft-v1得分:1
phoenix_inst_chat_7b_v1得分:1
qwen-7B-chat-v1得分:4
区域第一的模型为:
qwen-7B-chat-v1累计得分:4

三、结论
(1)评分
在知识常识领域,以下两个模型并列区域第一:
baichuan-13b-chat-v1区域累计得分:1.5
qwen-7B-chat-v1区域累计得分:1.5

代码相关领域第一:
qwen-7B-chat-v1区域累计得分:0.5

人类价值观领域第一:
qwen-7B-chat-v1累计得分:8.5

写作创作领域第一的模型为:
qwen-7B-chat-v1累计得分:4

综合累计得分情况,本次测评的冠军模型是
qwen-7B-chat-v1 总累计得分:14.5
image.png

(2)总结
1.知识常识领域:提问了5个问题,涉及的关键字有烫伤、牙痛、辞退、蟑螂、黄金等。大模型在专业知识领域的回答较弱,并不具备太高的参考价值和指导意义。正如大模型的免责声明所言,“用户不得将生成的内容用于非法用途,或应用于任何专业领域(包括但不限于医疗、法律等),所造成的一切后果由用户自己承担”。在此再次呼吁,大模型还在刚刚起步,且由于专业领域造成的社会影响可能会较大,操作不当可能会造成身体或经济损失,应该慎之又慎,必要时请一定要咨询专业人士。
2.代码相关领域:提了4个问题,我提问的代码相关领域问题,分别是代码与阿里云函数计算相结合,以及代码与阿里云运维编排相结合。相对来说大模型的表现较差,因为大模型给出的代码并不能直接执行成功。由于我的代码能力比较一般,所以我需要大模型给我一个可以直接运行的代码。
回到我的自身情况,我一般会用函数计算写代码来持续获取我感兴趣的信息,比如我会用python写获取黄金价格的代码,并且当黄金价格低于某个数值时,会自动发邮件通知我,让我意识到是时候买入黄金了。测试过程中,大模型给的代码在函数计算中,获取金价失败,邮件发送失败;另外,我本身是一个运维人员,需要写一些OOS模板来辅助我的运维工作,但是OOS的模板编写有一定的学习成本,我希望可以借助大模型简化我运维工作,直接帮我将中文描述,转化为OOS的模板,然后直接在OOS上运行。但是,大模型回到的内容并不符合OOS的语法规则。

3.人类价值观领域:提问了4个问题,涉及了高考、教育、习惯、择偶等方面内容,大模型的回答已经非常像我们的价值观了,在这个方面大模型的回答非常的赞

4.写作创作相关领域:提问了4个问题,涉及了AIGC、程序员代码规范、Centos停服以及技能等方面的内容创作问题,大模型的回答完全已经达到了专业的水准,语言表达清

综上所述,经过一系列的提问,来对大模型进行测评,我发现大模型在文本创作方面,已经达到了专业的水准;在人类价值观领域的回答,也和我们非常的接近,这是值得称赞的地方。
另外,在专业领域,例如简单的易操作且风险不太大但是很重要的急救知识,以及风险不太大的法律常识,或许大模型可以进行完善,这样可能可以提高大家保护自身以及维护自身权益的能力。
相对不足的方面是,当代码与实际相结合,则产生了断层。比如,代码与阿里云函数计算结合的代码编写,以及代码与阿里云OOS相结合的编写,期望对应的大模型能针对这个场景进行优化。想必,这将会像window让电脑变得更易用一样,大模型让编程变得更为易用,人人轻松的用代码实现自己的需求,这必将会划时代的伟大作品。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
350 10
【中文竞技场】大模型深度体验与测评
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69968 5
|
2月前
|
自然语言处理 C语言 Python
中文竞技场大模型评测
介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。
73 7
|
机器学习/深度学习 人工智能 JavaScript
Modelscope 中文竞技场的测评
Modelscope 是一种用于观察和分析模型的工具,它提供了一个直观的界面,使用户能够轻松地浏览和分析模型,而无需深入了解复杂的数学和编程。 以下简单和大家探讨一下Modelscope 中文竞技场的测试分享,将从写作创作相关、代码相关、人类价值观三个方面对进行综合测评,带大家多方面了解这一平台的综合实力。
510 2
|
数据采集 人工智能
对ModelScope 中的中文竞技场进行分析测评
ModelScope 是一款功能强大的人工智能模型,它在多个领域都有着广泛的应用
|
自然语言处理
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
368 0
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1229 2
中文竞技场大模型测评
|
机器学习/深度学习 PyTorch 算法框架/工具
关于Modelscope 中文竞技场测评
Modelscope 是一款用于模型性能测评的开源工具,它提供了一套简便而强大的功能,帮助用户评估和比较不同机器学习模型的性能
370 22
关于Modelscope 中文竞技场测评
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测

热门文章

最新文章