MS大模型测评报告

简介: 从写作创作相关、知识常识、中文游戏三个方向对大语言模型进行评测

第一个方向是写作创作相关,第一个问题是假设你是一名30多岁的煤矿企业的女性工作人员,请写一篇关于三八妇女节的征文。我认为模型B的回答更好,逻辑性强,内容也更加丰富,关注了女性在煤炭企业中的角色和贡献,强调了女性员工在生产一线的重要作用,提到了女性在平衡工作与家庭方面所面临的挑战,呼吁大家关爱身边的女性朋友,共同为实现女性的平等地位和权益而努力。
image.png
方向一的第二个问题是请比较两个模型的关于三八妇女节的征文,模型A就明显答非所问了,模型B可能无法获取到模型A的回答,虽然给出的答案不是真正比较了两个模型的回答,但格式正确,的确是回答了关于比较的问题,还给出了总结。
image.png
方向二是知识常识,模型A的会回答得更详细,更美观。
image.png
方向三我选择了中文游戏,模型A的回答更加分类明确、条理,成语解释得更加通俗易懂。
image.png

目录
相关文章
|
11月前
|
人工智能 运维 监控
函数计算3.0测评报告
Serverless应用中心是阿里云面向Serverless应用的一站式开发及生命周期管理平台。通过Serverless应用中心,您可以有效聚焦业务场景,快速开发及部署Serverless应用、白屏化操作资源提高运维效率,实现应用的全生命周期的管理,点击这里了解更多详情。
74 1
|
12天前
|
存储 人工智能 自然语言处理
测评报告
本方案利用AI大模型实现电话沟通内容的自动化质检,涵盖音频上传、转文字、对话分析及结果展示,采用先进NLP与语音识别技术,高效处理大量数据。文档详尽,示例代码完整,部署顺畅。适用于电话质检,建议扩展至多渠道数据整合、大模型微调及情感分析。
33 2
|
2月前
|
人工智能 安全 算法
|
3月前
|
监控 搜索推荐 语音技术
测试使用SenseVoice大模型测评
测试使用SenseVoice大模型测评
75 4
|
机器学习/深度学习 算法 安全
MS大模型评测有感
写作创作相关 知识常识 中文游戏
112 1
|
人工智能 索引 Python
阿里云社区MS大模型评测
通过中文竞技场模型比较模型AB的优劣
LIS系统源码:涵盖实验室的全部管理流程,包括从检验申请、标本采集、实验检测、报告发布等
1)与HIS系统无缝对接,共享缴费信息,生成检验申请单。 2)通过条形码、手工添加、电子申请单等多种方式录入样本。 3)自动接收检验结果,并根据患者的标本、年龄、性别等判断结果异常状态。 4)危急值提示,批量审核、打印,质控样本等功能协助医生更好的开展检验工作。 5)操作多台设备,自由切换,和操作单台设备一样。
125 0
|
数据可视化 机器人 C++
对MS大模型测评内容分享
对三个领域分别进行三个问题的体验
115 0
ms大模型评测有感
对于ms大模型评测对信息的处理还有待人民检查提高,因此我们对大模型进行评测。