阿里云开发者社区的中文竞技场模型体验-MS大模型评测

简介: 阿里云开发者社区的中文竞技场模型体验-MS大模型评测

在阿里云开发者社区的中文竞技场模型中体验了一下魔塔平台提供的几个大模型在代码相关、知识常识和写作创作三个领域的使用效果,可以说表现的差强人意,本文是在双模型匿名对话的模式下对随机的两个模型提相同的问题得到的答案进行评测描述。


一、代码相关

image.png

image.png

image.png

这个领域对应的两个模型是ChatPLUG-initial和belle-llama-13b-2m-v1

第1个问题是根据输入框默认的输入做的问题发送,问题是:“请使用常用的库来完成以下任务:请使用requests库发送一个GET请求,获取指定网址的HTML内容,并打印出来”。两个模型均给出了答案,但是ChatPLUG-initial给出的效果好一点,不光给出了发送网络请求的方案,还给出了返回结果以后的解析方案。

第2个问题是“如何使用java实现连接mysql数据库的功能,并且实现查询一张表数据的功能”。ChatPLUG-initial给出了错误的答案,belle-llama-13b-2m-v1则直接给出了500的error code。

第3个问题是:“请使用常用的库来完成以下任务:请使用django实现一哥http接口服务”。

ChatPLUG-initial给出了正确答案,还附带代码示例。belle-llama-13b-2m-v1仅仅给出了文字描述方案。

总结:在代码领域,ChatPLUG-initial表现的更好一点。


二、知识常识

image.png

image.png

image.png

这个领域对应的两个模型是ChatPLUG-initial和ChatPLUG-100Poison

第1个问题是:“请使用以下数学公式解答问题:已知圆的半径为a,求圆的面积。”。两个模型均给出了答案,但是ChatPLUG-100Poison给出的效果好一点还告知了圆周率约为3.14,并且还有圆在微积分中的定义。

第2个问题是“中国进入太空第一人是谁?简单介绍一下”。两个算法给出的答案都不是非常令人满意。ChatPLUG-100Poison相对较好,给出了人名和时间,但是提到了无关紧要的内容。

第3个问题是:“中国古代四大发明是什么?他们分别是在哪个朝代哪一年发明的”。

两个算法给出的答案,ChatPLUG-100Poison回答的很完美,而且还是格式排版的输出

总结:在知识常识领域,ChatPLUG-100Poison表现的更好一点。有个小瑕疵就是为什么在页面上会出现一个红色的Error提示?需要优化。


三、写作创作

image.png

image.png

image.png

这个领域对应的两个模型是moss-moon-003-sft-v1和qwen-7b-chat-v1

第1个问题输入框默认的,题目比较长,大概的意思是给出四大名著的摘要。两个模型均未给出答案,报了网络错误,原因不明。

第2个问题是“请以春天,桃花和小雨为主题写一首七言绝句诗”。qwen-7b-chat-v1给出了答案,结果很满意。moss-moon-003-sft-v1仍然在报错。

第3个问题是:“刀郎的新歌罗刹海市让蒲松龄的这位小说家火了起来,帮我梳理一下这位伟大小说家的伟大作品”。qwen-7b-chat-v1给除了完美的答案。moss-moon-003-sft-v1仍然在报错。

总结:在写作创作领域,qwen-7b-chat-v1的表现是压倒性的好,输出的答案质量也很高。


四、总结

虽然不明白双模型pk随机选择算法的机制是什么,不过这种随机性感觉挺好。从总体的回答质量上来讲,只能说效果一般,尤其还有一些报错,这些是不应该出现的。还有就是每个领域限制发送三个问题,太少了,不具有普遍性,可以适当放开,让用户用更多元的问题去测试和评估一个模型的好坏。

目录
相关文章
|
18天前
|
人工智能 数据管理 API
阿里云牵头制定IEEE《行业大模型管理平台标准》,促进行业大模型生态发展
阿里云牵头在IEEE人工智能分委会制定《行业大模odel管理平台标准》,旨在规范平台架构、功能及性能评估,解决行业应用中的共识缺失问题。该标准涵盖模型管理与应用工具的关键功能要求,并提供汽车、智能电网和传媒等领域的部署案例指导,以促进平台与行业用户的接口互通。多家企业和研究机构共同参与了标准制定工作,欢迎更多伙伴加入,共促产业发展。
|
19天前
|
人工智能 自然语言处理 搜索推荐
声临其境!体验阿里云开源音频基座大模型——FunAudioLLM
阿里通义实验室开源了全新的音频基座大模型FunAudioLLM,包含SenseVoice与CosyVoice两大核心模型。SenseVoice专精于多语言语音识别、情感辨识与声音事件检测,支持50余种语言,中文及粤语识别准确率提升50%以上。CosyVoice则擅长语音合成,只需3-10秒原始音频即可克隆音色,并支持跨语言合成。FunAudioLLM的应用场景广泛,包括语音到语音翻译、情感语音对话、互动播客及有声读物等。CosyVoice的在线体验显示,其生成的语音自然流畅,支持定制化及高级情绪控制,超越竞品ChatTTS。SenseVoice在情感识别及长音频处理方面表现出色。
20221 26
|
12天前
|
人工智能 自然语言处理 API
阿里云百炼平台上线首个最新文生图模型FLUX中文优化版
由Stable Diffusion团队推出的开源文生图模型FLUX风靡全球,其生成质量媲美Midjourney,被誉为“开源王者”。阿里云百炼平台首发FLUX中文优化版,提升了中文指令的理解与执行能力。开发者可直接在平台上体验并调用FLUX模型,且享有1000张图像的免费生成额度,有效期180天。无需额外部署,即可轻松利用这一先进模型创造高质量图像。
|
17天前
|
弹性计算 运维 Kubernetes
阿里云容器化管理云上应用一键部署评测报告
阿里云容器服务Kubernetes版(ACK)作为阿里云在容器化领域的旗舰产品,以其卓越的性能、便捷的操作体验和高度的可扩展性,赢得了众多企业的青睐。
|
13天前
|
SQL 自然语言处理 数据建模
阿里云百炼|析言GBI在中国一汽上线,大模型技术融入数智化转型
中国一汽自2022年起启动数智化转型,针对传统BI系统的局限性,如报表生成慢及数据处理不灵活等问题,与阿里云合作开发GPT-BI(阿里云百炼|析言GB)。该应用基于通义千问大模型,支持自然语言查询,自动产生分析图表,覆盖九大决策场景,准确率达92.5%。显著提高了决策效率与数据治理水平,引领汽车行业数智化转型新趋势。
|
19天前
|
自然语言处理 数据管理 数据挖掘
阿里云百炼知识检索应用评测:构建智能问答助手【开发者评测|阿里云百炼】
阿里云百炼是基于大模型的一站式开发平台,支持快速构建智能问答助手。评测中,通过上传企业数据创建知识库,并配置应用参数如温度系数、最长回复长度等,最终通过API实现问答功能。实操难点包括数据上传限制及参数配置复杂度。建议增加上传灵活性、提供更多配置指南和功能扩展插件。总体而言,阿里云百炼提供了强大且灵活的工具,有助于高效开发大模型应用。
2103 5
|
20天前
|
弹性计算 Kubernetes 监控
阿里云 ACK 容器服务评测
在现代企业的数字化转型过程中,容器化技术逐渐成为提高应用部署效率、增强系统弹性和灵活性的关键手段。阿里云的容器服务 Kubernetes 版(ACK)是一个完全托管的 Kubernetes 容器管理服务,旨在帮助企业轻松实现应用的容器化管理和部署。本文将对阿里云 ACK 容器服务的核心功能、性能表现及实际使用体验进行评测,帮助读者更好地理解这一产品。
62 0
|
4天前
|
人工智能 自然语言处理 API
阿里云百炼上线FLUX文生图模型中文优化版,可免费调用!
阿里云百炼上线FLUX文生图模型中文优化版,可免费调用!
30 0
|
4天前
|
人工智能 网络协议 小程序
重磅升级!阿里云推出首个域名AI大模型应用
重磅升级!阿里云推出首个域名AI大模型应用
23 0
|
5天前
|
机器学习/深度学习 存储 缓存
模型遇见知识图谱问题之参与阿里云机器学习团队的开源社区的问题如何解决
模型遇见知识图谱问题之参与阿里云机器学习团队的开源社区的问题如何解决

热门文章

最新文章