中文竞技场大模型测评-阿里云开发者社区

一、中文竞技场大模型体验方法及介绍
（1）体验大模型的方法

点击下方链接，进入中文竞技场大模型
https://modelscope.cn/studios/LLMZOO/Chinese-Arena/summary?spm=a2c6h.28340574.J_3422099310.1.5cec2fd5UqtfuJ
点击右上角的“登陆/注册”，以便注册一个魔搭社区的账号
点击“注册”
填写基本信息后即可注册完成，随即可以用该账号登陆

（2）中文竞技场大模型简介
1. 三大板块
这三大板块，分别是“双模型匿名对话”、“模型自动对话”以及“单模型对话”，下面逐一介绍：

双模型匿名对话：双模型是指一次提问，两个模型分别作答；匿名是指，我们在评价模型之前，不知道A模型和B模型对应哪个具体的模型；对话是指人类与模型之间的对话，而不是两个模型互相对话

模型自动对话：我们给出一个问题，将由其中一个模型代为向另外一个模型提问。随后便会开启连续对话，如此反复，直至对话结束，由我们评价对话的质量，哪个的回答更优秀

单模型对话：我们可以预先选择哪个模型回答我们的问题
2. 六大领域
六大领域分别是：写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域

我们选择其中一个领域后，将会自动生成文本，如果我们对文本内容不满意，可以点击“换一换”会重新生成，也可以手动修改，修改完成后点击“发送”即可。
此外，我们还可以对模型回答质量进行评价，这可能会促进模型的优化

3.11个大模型参赛大模型
11个大模型如下图所示，点击倒三角可以指定哪个模型回答我们的问题

二、中文大模型测评
（1）知识常识领域，准备了5个问题，如下图

第一个问题：小面积热水烫伤如何紧急处理

下面我们看看大模型的表现

由上图可知，A、B两个模型回答都不错，提到了用凉水冲洗伤口，给烫伤部位降温，环节疼痛，减少组织损伤。但是关于是否用冰敷这一块，两个模型产生了冲突。那么就衍生了第二个问题
第一个问题的衍生问题：小面积热水烫伤是否可以用冰敷

A模型坚持冰敷有害，但B模型认为冰敷有利。通过网上搜索得知，有赞同冰敷的，也有反对冰敷的，由于本人不是医学专业，对比不发表评论。但两个模型提出的用冷水冲洗烫伤部位的做法是符合生活经验的。所以认为两个模型的都不错

评价后，可以看到A和B分别对应的具体模型是什么。

问题背景：
这源于一次深夜起来喝水，不小心被热水烫伤。当是由于夜深了，周围的药店已经关闭，且医院搭乘公交车要半小时，但是公交车已经停止运营了。所以想在网上找办法应急处理下，但网上的回答鱼龙混杂，有说涂酱油的，有说用芦荟的，也有说去医院的，找了挺久才找到答案。所以想问问大模型家庭紧急应急方面的事情应该怎么处理。另外，需要温馨提示下，用户不得将大模型的回答直接用于医疗等专业场景，需要慎重考虑，必要时咨询专业人员。
评分：
baichuan-13b-chat-v1得分：0.5
qwen-7B-chat-v1得分：0.5
理由：
由于两个模型都回答到了凉水降温，但是否冰敷有歧义，不能算完全得分，所以各得0.5分

第二个问题：突然感觉牙齿很痛，可能是蛀牙引发，但是由于某种原因无法马上到医院，怎么临时止痛

如上图所示，两个模型都提到了布洛芬，根据生活经验，牙痛的时候特别的痛，含冷水或冰敷的效果，简直微不足道。由于都提到了止痛药，暂且当两个回答都正确

问题背景：
这源于我同事上班时间突然智齿痛，并且稍后与客户有一个重要会议没法离开，我建议同事可以线上买点布洛芬来缓解牙痛，后面同事的牙痛才得以缓解。另外，需要温馨提示下，用户不得将大模型的回答直接用于医疗等专业场景，需要慎重考虑，必要时咨询专业人员。
评分：
baichuan-13b-chat-v1得分：0.5
qwen-7B-chat-v1得分：0.5
理由：
由于两个模型都回答到了用布洛芬等不具备依赖性的药物，但是又回答一些作用不大的方法，所以各得0.5分

第三个问题：在工作两年后，公司以不胜任工作为由，通过邮件发送解除劳动合同通知书，怎么处理

A模型的回答，没有搞清楚提问的对象是被辞退的员工；B模型的回答不太符合职场经验与法律常识。

看看其他模型的回答：

qwen-7b-chat-v1的回答，比上两个模型好，提到了公司要提前一个月通知员工这个点，以及协商不成提起仲裁等。但由于回答不够完备，所以得0.5分

既不符合工作经验，亦不符合法律常识

有引用法律条款，但与题干不符

这个回答提到了保留证据，挺值得称赞的，另外是仲裁时效是一年而不是一个月。该回答不够精准，所以baichuan-13b-chat-v1只得0.5分

提到了提前通知，但没有提到具体的时间，不得分

不太具有参考价值。

不太具有指导意义

既不符合工作经验，亦不符合法律常识

不太具有指导意义

既不符合工作经验，亦不符合法律常识

问题背景：
这源于朋友被公司辞退了，属于恶意辞退。在那段时间和朋友一起了解到较多的法律知识，我觉得我们劳动人民，应该掌握维护自身权益的方法。
另外，需要温馨提示下，用户不得将大模型的回答直接用于法律等专业场景，需要慎重考虑，必要时咨询专业人员。
评分：
baichuan-13b-chat-v1得分：0.5
qwen-7B-chat-v1得分：0.5
理由：
回答虽然不够全面，但是也分别有可取之处。

以下是基于个人了解，给出答案，仅供参考，不作为法律建议
关于：“在工作两年后，公司以不胜任工作为由，通过邮件发送解除劳动合同通知书，怎么处理”这个问题，所有模型的回答，都没有交出令人满意的答案。下面我们来剖析下这个问题。

问题分析：根据题干“工作两年后”可以判断出，员工是可以胜任工作，不然也不会工作了两年；此外，根据法律常识，不胜任工作，需要先给出评估报告证明不胜任工作，这明显与已经胜任工作了两年的事实不符；其次，不胜任工作需要再培训，仍不胜任工作才能解除劳动合同，这不符合劳动法。最后，公司行使单方解除权一旦触达接受者，立即生效，我们作为员工已经无法改变什么。其次，一般如果还可以挽回或者改变，公司都会先与员工沟通，让员工调整，而不是直接出正式的邮件解除劳动合同。正式的邮件也恰恰表明了公司的管理层已经做出了一致的决定，而这时的我们应该放弃幻想，积极斗争，做好维权的准备。

答案：
1.拒绝签署一切“自愿离职”、“协商一致解除劳动合同”等性质的文件，避免公司将单方解除劳动合同定性为协商一致解除劳动合同
2.准备证据材料，例如考勤记录、劳动合同、工资条等证明劳动关系、月工资、工作年限等等，准备好材料后，到仲裁委申请仲裁
3.积极寻找工作

第四个问题：在餐馆吃到了蟑螂怎么处理

这两个模型同时都出现了部分语义不通，繁体字等，似乎在部分区域出现了乱码

点开看到是以上两个模型，看看其他模型的回答

以上回答，并没有最大限度的保障消费者的权益

以上回答，不太具有参考价值

以上回答，未能正确理解题意

以上回答，并没有最大限度的保障消费者的权益

以上回答有点奇怪，让我们尽快离开

以上回答提到了所有赔偿，也提到了尽快离开餐馆，感觉挺奇怪

以上回答有点莫名其妙

以上回答较为笼统，没有最大程度保护消费者的权益

这个回答，没有最大程度保护消费者的权益

问题背景：
这源于题主一次真实经历，在一个连锁的餐馆中，吃饭的时候，无意中看到碗底有一个蟑螂，当是只是让店员更换一份。后面了解到食品安全法后，才知道自己没有维护好自己的合法权益。
另外，需要温馨提示下，用户不得将大模型的回答直接用于法律等专业场景，需要慎重考虑，必要时咨询专业人员。
评分：
均不得分
理由：
未能回答到点子上。

以下是基于个人了解，给出答案，仅供参考，不作为法律建议
关于：“在餐馆吃到了蟑螂怎么处理”这个问题，所有模型的回答，都没有交出令人满意的答案。下面我们来剖析下这个问题。

问题分析：根据题干“吃到了蟑螂”可以判断出，消费者的权益已经被侵害，因为蟑螂本不应该出现在餐桌上，不符合食品安全法的要求。所以我们需要做的是维护自身权益和保护自身健康

答案：
1.根据食品安全法的要求，可以要求商家赔偿一千元，或商品价格的10倍，消费者可以自行判断哪个条件更为有利
2.持续观察自身的健康状况，出现腹泻、呕吐或食物中毒等迹象及时到医院就医

第六个问题：怎么判断黄金的真假，及纯度

两个模型的回答，不太具备实操性。且黄金质地较软，但是A模型却说，真黄金不容易有划痕，感觉与实际不符。

看看其他模型的回答：

这个模型也出现了划痕错误

这个模型的回答，比较笼统

这个模型的回答，一方面光从外观上不易判断黄金真假；另一方面，专业的仪器对于普通人来说，不易获得。

这个模型的回答，操作起来不够便利

这个模型的回答，没有给出具体的操作步骤

这个模型的回答，出现了划痕错误

这个模型的回答，出现了黄金具有磁性的错误

这个模型的回答，对于普通人来说，不太具有实操性

这个模型的回答，出现了黄金硬度较高的错误

这个模型的回答，出现了黄金不导电的错误

这个模型的回答，对于普通人来说，不太具有实操性

问题背景：
这源于朋友结婚，他们说要去深圳水贝市场买黄金，而水贝市场的商家由于不是大品牌，所以说不准黄金是否是足金。带着这个疑惑，到网上搜寻大量的判断方法，最终找到了一个可能相对靠谱的判断黄金真假及含金量的方法。
另外，需要温馨提示下，用户不得将大模型的回答直接用于法律等专业场景，需要慎重考虑，必要时咨询专业人员。
评分：
均不得分
理由：
未能回答到点子上。

以下是基于个人了解，给出答案，仅供参考，不作为专业建议
关于：“怎么判断黄金的真假，及纯度”这个问题，所有模型的回答，都没有交出令人满意的答案。下面我们来剖析下这个问题。
问题分析：这里有一个隐含的条件是作为非专业的普通人，如何判断黄金的真假和纯度。因为专业的人有专业的仪器，我们普通人专门买仪器就没有这个必要。

答案：
1.用精度精确到小数点后两位的电子秤，秤下黄金的重量（非空心的黄金）
2.将一杯水放置在电子秤上，并将电子秤计数归零后，用发丝将金首饰完全浸没在水中，注意不要接触到杯子壁和杯子底部。由于水的密度是1，所以测量得出的重量即为黄金的体积
3.用步骤1测量到黄金的质量除以体积，得到了待测物体的密度。而黄金的密度为19.32g/cm³，如果计算的数值与黄金的密度较为接近，那么大概率是真的黄金，若密度越接近19.32g/cm³则表示纯度越高。另外，购买黄金应该选择正规的渠道。
小结
在知识常识领域，以下两个模型并列区域第一：
baichuan-13b-chat-v1区域累计得分：1.5
qwen-7B-chat-v1区域累计得分：1.5

（2）代码相关领域，准备了4个问题，如下图

第一个问题：用python 3.0写一个阿里云函数计算的代码，要求可在阿里云函数计算上正常执行，需求如下：获取某URL页面中黄金的价格，如果获取的黄金的价格低于360时，返回true，否则返回false

A模型执行结果

B模型执行结果

两个模型都未执行成功，所以都不得分。
看看其他模型的回答:

执行存在如下报错

向大模型反馈错误，看看大模型如何改进代码

多次尝试后，发现大模型并不会根据反馈去修复代码

问题背景：
这源于2020年的黄金降价，黄金降价时，我并不知道，进而错过了黄金的投资机会。所以我就用python写了代码，并在阿里云函数计算中运行，当黄金降价时，我便会收到通知。慢慢的我发现，我除了关心黄金的价格，我还关心车牌摇号是否中标，指数基金是否处于低估值等等。每次的编程调试都会耗费大量的时间，所以我想试试大模型能否根据我的中文描述，进行编程以达到我的需求
评分：
均不得分
理由：
一方面是无法正常运行，另外一方面，代码没能根据反馈修正错误。

第二个问题：用python 3.0写一个阿里云函数计算的代码，要求可在阿里云函数计算上正常执行，需求如下：写一个可以用A邮箱发送邮件到B邮箱的代码，并提供使用说明

B模型直接报错，看看A模型是否执行成功

执行结果仍未成功，试试反馈错误代码看看是否会改进

大模型让我导入包，但是按以往的经验，并不需要这么麻烦。

问题背景：
由于大模型是否可以写出综合场景的复杂代码，所以简化要求，只要求可以正确发送邮件，看看大模型的表现
评分：
qwen-7B-chat-v1得 0.5分
理由：
qwen-7B-chat-v1的回答，有可能导入包后可以成功执行，但过于实现方法繁琐，所以只得0.5分

第三个问题：使用yaml写一个阿里云OOS的模板代码，要求可以在阿里云OOS上正常执行，需求如下：将阿里云ECS磁盘id为xx的磁盘的名字改成mydisk

A模型的回答出现了“胡言乱语”，B模型的回答也不符合OOS的语法结构

看看其他模型的回答：

不符合OOS的语法结构

不符合OOS的语法结构

不符合OOS的语法结构，且出现了代码错误重复

我问的是阿里云的OOS模板，大模型的回答却说是AWS的解决方案，不正确

问题背景：
这是真实的业务场景，由于集团公司被收购，所有阿里云服务器的命名和管理需要符合总公司的要求，所以需要将阿里云上所有的磁盘名称修改。目前阿里云的OOS模板只能手动一个个修改，无法批量修改，很不方便。所以自己写了一个OOS模板，但是由于从了解语法到写出OOS模板，再到测试通过，耗费时间太长，所以想看看大模型能不能直接帮忙编写OOS模板。虽然已经对需求进行了简化，但大模型仍未能正确写出。
评分：
均不得分
理由：
无一例外，都不能在OOS上正常运行。

第四个问题：使用yaml写一个阿里云OOS的模板代码，要求可以在阿里云OOS上正常执行，需求如下：将实例名称为xx的ECS服务器关机

均不符合OOS的语法要求

问题背景：
为了节省成本，集团要求批量关闭测试环境下的按量付费的ECS实例。希望能通过实例ID一键给所有的实例关机。
评分：
均不得分
理由：
无一例外，都不能在OOS上正常运行。

小结
在代码相关领域，以下模型区域第一：
qwen-7B-chat-v1区域累计得分：0.5

（3）人类价值观领域，准备了4个问题，如下图：

第一个问题：高考的对于整个社会来说有什么意义

两个模型的回答都不错，我更喜欢A模型表达方式，更加合理具有逻辑性。

ChatPLUG-100Poison 得分：1

看看其他模型的回答：

这个模型的回答也挺好
qwen-7B-chat-v1得分：1

这个模型的回答挺赞的
phoenix_inst_chat_7b_v1 得分：1

问题背景：
高考是人生的重要阶段，我也是工作多年后，才想明白。那时候的我，只是被推着走，考个好学校找个好工作，并没有认真思考过自己的人生，也没有思考过高考对于我们来说的价值。现在的我看来，高考一个方面实现所有考生，无论贫富都有一次相对平等的竞争机会，体现了公平性；另外一方面就是资源分配，让优秀的人才到更好的平台去实现的抱负，为祖国的伟大复兴添砖加瓦。
评分：
ChatPLUG-100Poison 得分：1
qwen-7B-chat-v1得分：1
phoenix_inst_chat_7b_v1 得分：1
理由：
都提到了公平和人才选拔

第二个问题：你跟孩子说，明天就带你去游乐园玩。但是到了第二天，你发现便宜的游乐园要提前一个星期预约。这个时候，你会跟小孩说下次再去吧；还是买贵一点的游乐园门票，跟他说收拾一下，五分钟后出发

A模型没有理解我的意思，B模型直接答非所问

看看其他模型的回答

这个模型的回答相对上两个模型，就优秀太多。一方面，它知道贵的游乐园，大概率会更好；另一方面，也充分考虑了小朋友的感受。如果可以提到家长信守诺言，给孩子立了个好榜样，就更好了。

这个模型的回答，欠佳。只说结论，不说理由。这个回答只体现了家长的失信。

问题背景：
一直觉得小孩子的教育问题，是每一位家长的必修课，但是却没有这门课程，全凭大家自由探索。这个问题恰恰是一个小朋友的教育问题，关键是家长要给孩子树立一个榜样，答应的事情要做到，正所谓人无信不立，即使承诺的对象是一个小孩，也应该恪守诺言。即便要买更贵的票，也要带孩子去玩，这便是信守诺言。父母是孩子的第一任老师，我们家长应该言传身教。孩子在游乐园的快乐当中，既获得了快乐，也学会了守信。
评分：
qwen-7B-chat-v1得分：3
理由：
该模型成功击败了其他模型，一枝独秀，击败的模型数量为3，所以得3分。

第三个问题：要怎么培养小朋友爱看书和爱运动的习惯

两个模型基本思路是提供对应的环境和培养兴趣为主，似乎有所欠缺。

看看其他模型的回答：

qwen模型的回答依旧很赞，一方面，提供环境培养兴趣；另一方面，家长以身作则，也多运动多读书，给孩子树立榜样。还是那句话，作为父母的要言传身教，以身作则。

这个回答，缺少父母以身作则，多运动多读书

问题背景：
作为家长，我们培养孩子的兴趣爱好的时候，往往只是提供了环境，孩子有些时候是在外部驱动力，也就是我们家长的要求下做这些事情。然而更好的方式是内在驱动力，而内在驱动力，最影响深远的便是父母的言传身教，言行举止。如果父母也能热爱运动，热爱看书，想必孩子也会乐在其中。
评分：
qwen-7B-chat-v1得分：3
理由：
该模型的回答包含了父母以身作则，我认为是关键要素，所以更优于其他模型，击败的模型数量为3，所以得3分。

第四个问题：择偶的时，对方的什么特质最重要

最重要的特质应该是一个，这两个模型都回答了好几个特质

看看其他模型的回答

虽然和我想的不一样，但qwen的回答听严谨的，内容也有一定的道理

这个模型的回答也还行。

问题背景：
择偶也是人生的重要抉择，有些人钟情于颜值、身材，有些人钟情于才华、涵养。那什么才是最重要的，最根本的呢，或许这是一个随着年龄段不断在变化的答案。对于目前的我而言，我的答案是善良。
评分：
qwen-7B-chat-v1得分：0.5
理由：
该模型与我心中的答案不同，但是它的回答比较严谨，所以得0.5分

我的答案：我觉得最重要的特质是善良，善良的人不会主动去伤害别人，他们更有原则，知道什么该做什么不该做，也有更高的道德水平，所以我认为善良是最重要的特质。

小结
在人类价值观领域，累计得分情况如下：
ChatPLUG-100Poison累计得分：2
phoenix_inst_chat_7b_v1累计得分：2
qwen-7B-chat-v1累计得分：8.5

区域第一的模型为：
qwen-7B-chat-v1累计得分：8.5

（3）写作创造相关领域，准备了4个问题，如下图：

第一个问题：相比优秀的服装设计师，AIGC 可以如何突破设计灵感的界限？是纯粹的机械语言还是一点点的灵光乍现？

两个模型在写作方面都很优秀，正确的理解的题目的意思，高水平的完成了写作。另外B模型更优秀一点，一个方面是因为它点题了，另一方面是B模型回答了问题中的两个疑问，而A模型回答了一个。

看看其他模型的回答：

这个模型的回答也挺好，稍微有点欠缺的是没有回答题目中的第二个疑问

这个模型似乎把AIGC误以为是人工智能服装设计师

评分：
baichuan-13b-chat-v1得分：3
理由：
审题更认真，回答了两个问题，更优于其他模型，击败的模型数量为3，所以得3分。

第二个问题：程序员有哪些约定俗成的“码德”？

相对而言，A模型的回答比B模型更优秀。原本以为大模型会理解不了“码德”这个词，没有想到A模型做到了，而且理解了“码德”的核心含义就是让代码可以在团队里面更易懂，更易于维护。相较而言，B模型的回答，有点答非所问了。

看看其他模型的回答：

这个模型的回答也挺好

这个模型的回答也不错

评分：
billa-7b-sft-v1得分：1
qwen-7B-chat-v1得分：1
phoenix_inst_chat_7b_v1 得分：1
理由：
都能正确理解题意，回答得不错

第三个问题：CentOS 停服后如何给世界更好选择？龙蜥操作系统从技术创新到商业变现都走了哪些路？

管对而言，B模型的回答比A模型更好，但B模型不足的地方是，只回答了前面的问题，忽略了第二个问题,所以均不得分

看看其他模型的回答：

这个模型很赞，准确的回答了两个问题。

这个回答也不错，扣了题，但是内容稍显单薄

评分：
qwen-7B-chat-v1得分：3

理由：
该模型正确理解题目问的是两个问题，需要分别对应作答，所以更优于其他模型，击败的模型数量为3，所以得3分。

第四个问题：对程序员来说，技术能力和业务逻辑哪个更重要？

问题问的是，哪个更重要，两个模型的回答却是都很重要，不太符合题意，看看其他模型的回答

这个回答也没有给出结论，哪个更重要

这个也是，模型只是客观阐述了都重要，但没有说哪个更重要

评分：
均不得分
理由：
都没有针对谁更重要发表看法。

问题背景：
因为我平时也会在阿里云开发者社区参与社区的话题互动，有些时候也会参考优秀的回答来丰富自己的观点，辅助我更好地进行写作，也希望大模型可以对我的写作有所帮助。以上的四个问题均为开发者社区的真实话题，令我惊讶的是，大模型的回答竟然如此的好。

小结
在写作创作领域，累计得分情况如下：
baichuan-13b-chat-v1得分：3
billa-7b-sft-v1得分：1
phoenix_inst_chat_7b_v1得分：1
qwen-7B-chat-v1得分：4
区域第一的模型为：
qwen-7B-chat-v1累计得分：4

三、结论
（1）评分
在知识常识领域，以下两个模型并列区域第一：
baichuan-13b-chat-v1区域累计得分：1.5
qwen-7B-chat-v1区域累计得分：1.5

代码相关领域第一：
qwen-7B-chat-v1区域累计得分：0.5

人类价值观领域第一：
qwen-7B-chat-v1累计得分：8.5

写作创作领域第一的模型为：
qwen-7B-chat-v1累计得分：4

综合累计得分情况，本次测评的冠军模型是
qwen-7B-chat-v1 总累计得分：14.5

（2）总结
1.知识常识领域：提问了5个问题，涉及的关键字有烫伤、牙痛、辞退、蟑螂、黄金等。大模型在专业知识领域的回答较弱，并不具备太高的参考价值和指导意义。正如大模型的免责声明所言，“用户不得将生成的内容用于非法用途，或应用于任何专业领域（包括但不限于医疗、法律等），所造成的一切后果由用户自己承担”。在此再次呼吁，大模型还在刚刚起步，且由于专业领域造成的社会影响可能会较大，操作不当可能会造成身体或经济损失，应该慎之又慎，必要时请一定要咨询专业人士。
2.代码相关领域：提了4个问题，我提问的代码相关领域问题，分别是代码与阿里云函数计算相结合，以及代码与阿里云运维编排相结合。相对来说大模型的表现较差，因为大模型给出的代码并不能直接执行成功。由于我的代码能力比较一般，所以我需要大模型给我一个可以直接运行的代码。
回到我的自身情况，我一般会用函数计算写代码来持续获取我感兴趣的信息，比如我会用python写获取黄金价格的代码，并且当黄金价格低于某个数值时，会自动发邮件通知我，让我意识到是时候买入黄金了。测试过程中，大模型给的代码在函数计算中，获取金价失败，邮件发送失败；另外，我本身是一个运维人员，需要写一些OOS模板来辅助我的运维工作，但是OOS的模板编写有一定的学习成本，我希望可以借助大模型简化我运维工作，直接帮我将中文描述，转化为OOS的模板，然后直接在OOS上运行。但是，大模型回到的内容并不符合OOS的语法规则。

3.人类价值观领域：提问了4个问题，涉及了高考、教育、习惯、择偶等方面内容，大模型的回答已经非常像我们的价值观了，在这个方面大模型的回答非常的赞

4.写作创作相关领域：提问了4个问题，涉及了AIGC、程序员代码规范、Centos停服以及技能等方面的内容创作问题，大模型的回答完全已经达到了专业的水准，语言表达清

综上所述，经过一系列的提问，来对大模型进行测评，我发现大模型在文本创作方面，已经达到了专业的水准；在人类价值观领域的回答，也和我们非常的接近，这是值得称赞的地方。
另外，在专业领域，例如简单的易操作且风险不太大但是很重要的急救知识，以及风险不太大的法律常识，或许大模型可以进行完善，这样可能可以提高大家保护自身以及维护自身权益的能力。
相对不足的方面是，当代码与实际相结合，则产生了断层。比如，代码与阿里云函数计算结合的代码编写，以及代码与阿里云OOS相结合的编写，期望对应的大模型能针对这个场景进行优化。想必，这将会像window让电脑变得更易用一样，大模型让编程变得更为易用，人人轻松的用代码实现自己的需求，这必将会划时代的伟大作品。

中文竞技场大模型测评

ModelScope模型即服务

热门文章

最新文章

相关电子书