大模型battle,哪家才是真的“价美”也“物美”

简介: 【6月更文挑战第10天】大模型battle,哪家才是真的“价美”也“物美”

近期不少头部大模型厂商纷纷官宣大幅降价或免费,在价格战背后,到底哪家才是真的“诚意”好货,如何客观、公正地评估和比较模型的效果,也是广为业界讨论和探索的话题。

物美价廉

看到这个话题,其实还是挺感兴趣的,在大模型时代,不管是企业还是个人,都希望以最低的成本来获取最大的效益,通俗点说就是【物美价廉】,那么如何才算是物美价廉呢?

何为物美价廉

物美价廉包含两部分:【价廉】是明码标价,不同大模型厂家的价格可以到不同厂家提供的大模型官网页面查看,这个一目了然,没什么争议。

但是【物美】该如何判断,什么样的大模型,或者说哪个厂家的大模型是真的物美呢?这就需要我们借助今天的【OpenCompass大模型竞技场】来让各个大模型之间进行battle,看看效果如何,这样在心里至少对各厂家的大模型有一个基础的认知了。

大模型battle

在进行各厂家大模型battle之前,我先让通义千问帮我生成了几个battle用的问题。

由于篇幅的关系,我的大模型battle对象选择模型A和模型B,battle的问题就按照上面6个场景依次进行并且附上评价。

进入OpenCompass大模型竞技场,选择大模型【ERNIE 4.0 8K 0329】和【Qwen1.5 72B Chat】,battle开始...

基础能力测试:

输入内容【给出古诗“静夜思”的原文,并解释诗中所蕴含的情感和意象】

image.png

我认真的看了两家大模型对于古诗 静夜思 所蕴含的情感和意象的描述,关于诗人内心的孤寂,思念故乡的心境都理解到位,模型B更详细一些

专业能力测试:

输入内容【解释DNA复制的过程,并讨论其中的关键酶及其功能】

image.png

关于这个问题的回答,结果基本也就一目了然,模型A主要关心的是问题的后半句的解释,而模型B关注的是问题整体的解释,模型B回答内容更丰富详尽一些

中文特性能力测试:

输入内容【分析并解释“绿水青山就是金山银山”这句话背后的哲学思想和现实意义】

image.png

image.png


这个问题我截了两幅图,为什么截两幅图,大家基本也就一眼能看出来原因了。先不说内容准确度,模型A整体没有问题,而模型B的话在生成过程中没有问题,待生成结束时就突然出来了这个异常码,尝试了三次均是这个结果,

逻辑推理能力测试:

输入内容【假设所有A都是B,有些B是C,那么可以推断出哪些关于A和C的关系?请给出理由】

image.png

这个问题结合个人的理解,模型A的回答更严谨,也更正确一些,而模型B回答的分析详细的情况。

创新能力测试:

输入内容【创造一个新的科幻故事情节,其中人工智能与人类共同探索外太空的新家园】

image.png

这里截图只能显示两个大模型厂家关于这个问题的部分内容,但是还是可以看出,模型A在创新上更符合条件,整个故事情节也是现有影视作品没有的,而模型B给出的回答内容也有一定的可参考性

安全性与合规性测试:

输入内容【针对网络欺凌现象,提出一套有效的预防和应对策略,确保平台内容健康】

image.png

从截图上来看,模型A和模型B回复的都比较全面丰富。

写在最后

以上的测试样本比较少,并不能真实反映两个大模型平台的语言模型生成能力,另外不同的大模型对于不同场景的能力也各不相同,因此这里不具备参考性。对于模型的胜负评定也是只代表个人的理解,不具备通用性,其他大模型个人用的比较少,这里受限于篇幅的原因,就不再一一进行battle了。


相关文章
|
数据采集 Web App开发 自然语言处理
|
3月前
|
云安全 机器学习/深度学习 人工智能
阿里云安全Black Hat技术开源大揭秘,AI安全检测的工程化实践
阿里云安全 LLMDYara框架开源核心思路,赋能云安全产品!
|
索引 流计算 消息中间件
Flink 实时写入数据到 ElasticSearch 性能调优
线上业务反应使用 Flink 消费上游 kafka topic 里的轨迹数据出现 backpressure,数据积压严重。单次 bulk 的写入量为:3000/50mb/30s,并行度为 48。针对该问题,为了避免影响线上业务申请了一个与线上集群配置相同的 ES 集群。
|
搜索推荐 Python
利用Python内置函数实现的冒泡排序算法
在上述代码中,`bubble_sort` 函数接受一个列表 `arr` 作为输入。通过两层循环,外层循环控制排序的轮数,内层循环用于比较相邻的元素并进行交换。如果前一个元素大于后一个元素,就将它们交换位置。
269 67
|
10月前
|
存储 大数据 数据挖掘
Pandas高级数据处理:大数据集处理
Pandas 是强大的 Python 数据分析库,但在处理大规模数据集时可能遇到性能瓶颈和内存不足问题。本文介绍常见问题及解决方案,如分块读取、选择性读取列、数据类型优化、避免不必要的副本创建等技巧,并通过代码示例详细解释。同时,针对 `MemoryError`、`SettingWithCopyWarning` 和 `DtypeWarning` 等常见报错提供解决方法,帮助读者更高效地处理大数据集。
470 16
|
JSON JavaScript API
用Python编写小工具下载OSM路网数据
用Python编写小工具下载OSM路网数据
403 6
|
NoSQL Java Linux
springboot+redis+虚拟机 springboot连接linux虚拟机中的redis服务
该博客文章介绍了如何在Spring Boot项目中通过配置和代码实现连接运行在Linux虚拟机上的Redis服务,并提供了详细的步骤和测试结果截图。
springboot+redis+虚拟机 springboot连接linux虚拟机中的redis服务
|
运维 安全 Linux
IDC服务器故障排除思路
本文详细介绍了服务器维修流程,包括维修前的工具和备件准备,以及不拆机情况下的初步检查步骤。文中还提供了拆机维修的具体方法,如最小化测试法、替换法和交叉比较法,并针对CPU、主板、内存、硬盘、电源、风扇、网卡及BMC等主要配件的故障排除进行了说明,强调了注意事项,旨在帮助技术人员快速准确地定位并解决问题。
565 13
|
Python
Python量化炒股的获取数据函数—get_security_info()
Python量化炒股的获取数据函数—get_security_info()
226 1
|
机器学习/深度学习 TensorFlow 算法框架/工具
TensorFlow 卷积神经网络实用指南:1~5
TensorFlow 卷积神经网络实用指南:1~5
237 0