阿里云开发者社区的中文竞技场模型体验-MS大模型评测

简介: 阿里云开发者社区的中文竞技场模型体验-MS大模型评测

在阿里云开发者社区的中文竞技场模型中体验了一下魔塔平台提供的几个大模型在代码相关、知识常识和写作创作三个领域的使用效果,可以说表现的差强人意,本文是在双模型匿名对话的模式下对随机的两个模型提相同的问题得到的答案进行评测描述。


一、代码相关

image.png

image.png

image.png

这个领域对应的两个模型是ChatPLUG-initial和belle-llama-13b-2m-v1

第1个问题是根据输入框默认的输入做的问题发送,问题是:“请使用常用的库来完成以下任务:请使用requests库发送一个GET请求,获取指定网址的HTML内容,并打印出来”。两个模型均给出了答案,但是ChatPLUG-initial给出的效果好一点,不光给出了发送网络请求的方案,还给出了返回结果以后的解析方案。

第2个问题是“如何使用java实现连接mysql数据库的功能,并且实现查询一张表数据的功能”。ChatPLUG-initial给出了错误的答案,belle-llama-13b-2m-v1则直接给出了500的error code。

第3个问题是:“请使用常用的库来完成以下任务:请使用django实现一哥http接口服务”。

ChatPLUG-initial给出了正确答案,还附带代码示例。belle-llama-13b-2m-v1仅仅给出了文字描述方案。

总结:在代码领域,ChatPLUG-initial表现的更好一点。


二、知识常识

image.png

image.png

image.png

这个领域对应的两个模型是ChatPLUG-initial和ChatPLUG-100Poison

第1个问题是:“请使用以下数学公式解答问题:已知圆的半径为a,求圆的面积。”。两个模型均给出了答案,但是ChatPLUG-100Poison给出的效果好一点还告知了圆周率约为3.14,并且还有圆在微积分中的定义。

第2个问题是“中国进入太空第一人是谁?简单介绍一下”。两个算法给出的答案都不是非常令人满意。ChatPLUG-100Poison相对较好,给出了人名和时间,但是提到了无关紧要的内容。

第3个问题是:“中国古代四大发明是什么?他们分别是在哪个朝代哪一年发明的”。

两个算法给出的答案,ChatPLUG-100Poison回答的很完美,而且还是格式排版的输出

总结:在知识常识领域,ChatPLUG-100Poison表现的更好一点。有个小瑕疵就是为什么在页面上会出现一个红色的Error提示?需要优化。


三、写作创作

image.png

image.png

image.png

这个领域对应的两个模型是moss-moon-003-sft-v1和qwen-7b-chat-v1

第1个问题输入框默认的,题目比较长,大概的意思是给出四大名著的摘要。两个模型均未给出答案,报了网络错误,原因不明。

第2个问题是“请以春天,桃花和小雨为主题写一首七言绝句诗”。qwen-7b-chat-v1给出了答案,结果很满意。moss-moon-003-sft-v1仍然在报错。

第3个问题是:“刀郎的新歌罗刹海市让蒲松龄的这位小说家火了起来,帮我梳理一下这位伟大小说家的伟大作品”。qwen-7b-chat-v1给除了完美的答案。moss-moon-003-sft-v1仍然在报错。

总结:在写作创作领域,qwen-7b-chat-v1的表现是压倒性的好,输出的答案质量也很高。


四、总结

虽然不明白双模型pk随机选择算法的机制是什么,不过这种随机性感觉挺好。从总体的回答质量上来讲,只能说效果一般,尤其还有一些报错,这些是不应该出现的。还有就是每个领域限制发送三个问题,太少了,不具有普遍性,可以适当放开,让用户用更多元的问题去测试和评估一个模型的好坏。

目录
相关文章
|
1月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
328 23
|
1月前
|
人工智能 JavaScript 测试技术
Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?
Cradle 是由 BAAI‑Agents 团队开源的通用计算机控制(GCC)多模态 AI Agent 框架,具备视觉输入、键鼠操作输出、自主学习与反思能力,可操作各类本地软件及游戏,实现任务自动化与复杂逻辑执行。
174 6
|
2月前
|
人工智能 弹性计算 API
再不玩通义 VACE 模型你就过时了!一个模型搞定所有视频任务
介绍通义的开源模型在 ecs 或 acs 场景如何一键部署和使用,如何解决不同视频生成场景的问题。
|
3月前
|
数据采集 人工智能 编解码
2025年颠覆闭源大模型?MonkeyOCR:这款开源AI文档解析模型,精度更高,速度更快!
还在依赖昂贵且慢的闭源OCR工具?华中科技大学开源的MonkeyOCR文档解析模型,以其超越GPT4o的精度和更快的推理速度,在单机单卡(3090)上即可部署,正颠覆业界认知。本文将深入解析其设计哲学、核心突破——大规模自建数据集,并分享实测体验与避坑指南。
1166 87
|
2月前
|
人工智能 安全 API
用Qwen Code,体验全新AI编程——高效模型接入首选ModelGate
Qwen Code 是通义千问推出的AI编程助手,支持自然语言编程与智能代码生成,大幅提升开发效率。结合 ModelGate,可实现多模型统一管理、安全调用,解决API切换、权限控制、稳定性等问题,是Claude Code的理想国产替代方案。
|
2月前
|
人工智能 自然语言处理 vr&ar
通义首个音频生成模型 ThinkSound 开源,你的专业音效师
通义实验室推出首个音频生成模型ThinkSound,突破传统视频到音频生成技术局限,首次将思维链(CoT)应用于音频生成领域,实现高保真、强同步的空间音频生成。基于自研AudioCoT数据集,结合多模态大语言模型与统一音频生成模型,支持交互式编辑,显著提升音画匹配度与时序一致性。代码已开源,助力游戏、VR、AR等场景创新应用。
748 3

热门文章

最新文章