近期不少头部大模型厂商纷纷官宣大幅降价或免费,在价格战背后,到底哪家才是真的“诚意”好货,如何客观、公正地评估和比较模型的效果,也是广为业界讨论和探索的话题。
物美价廉
看到这个话题,其实还是挺感兴趣的,在大模型时代,不管是企业还是个人,都希望以最低的成本来获取最大的效益,通俗点说就是【物美价廉】,那么如何才算是物美价廉呢?
何为物美价廉
物美价廉包含两部分:【价廉】是明码标价,不同大模型厂家的价格可以到不同厂家提供的大模型官网页面查看,这个一目了然,没什么争议。
但是【物美】该如何判断,什么样的大模型,或者说哪个厂家的大模型是真的物美呢?这就需要我们借助今天的【OpenCompass大模型竞技场】来让各个大模型之间进行battle,看看效果如何,这样在心里至少对各厂家的大模型有一个基础的认知了。
大模型battle
在进行各厂家大模型battle之前,我先让通义千问帮我生成了几个battle用的问题。
由于篇幅的关系,我的大模型battle对象选择模型A和模型B,battle的问题就按照上面6个场景依次进行并且附上评价。
进入OpenCompass大模型竞技场,选择大模型【ERNIE 4.0 8K 0329】和【Qwen1.5 72B Chat】,battle开始...
基础能力测试:
输入内容【给出古诗“静夜思”的原文,并解释诗中所蕴含的情感和意象】
我认真的看了两家大模型对于古诗 静夜思 所蕴含的情感和意象的描述,关于诗人内心的孤寂,思念故乡的心境都理解到位,模型B更详细一些
专业能力测试:
输入内容【解释DNA复制的过程,并讨论其中的关键酶及其功能】
关于这个问题的回答,结果基本也就一目了然,模型A主要关心的是问题的后半句的解释,而模型B关注的是问题整体的解释,模型B回答内容更丰富详尽一些
中文特性能力测试:
输入内容【分析并解释“绿水青山就是金山银山”这句话背后的哲学思想和现实意义】
这个问题我截了两幅图,为什么截两幅图,大家基本也就一眼能看出来原因了。先不说内容准确度,模型A整体没有问题,而模型B的话在生成过程中没有问题,待生成结束时就突然出来了这个异常码,尝试了三次均是这个结果,
逻辑推理能力测试:
输入内容【假设所有A都是B,有些B是C,那么可以推断出哪些关于A和C的关系?请给出理由】
这个问题结合个人的理解,模型A的回答更严谨,也更正确一些,而模型B回答的分析详细的情况。
创新能力测试:
输入内容【创造一个新的科幻故事情节,其中人工智能与人类共同探索外太空的新家园】
这里截图只能显示两个大模型厂家关于这个问题的部分内容,但是还是可以看出,模型A在创新上更符合条件,整个故事情节也是现有影视作品没有的,而模型B给出的回答内容也有一定的可参考性
安全性与合规性测试:
输入内容【针对网络欺凌现象,提出一套有效的预防和应对策略,确保平台内容健康】
从截图上来看,模型A和模型B回复的都比较全面丰富。
写在最后
以上的测试样本比较少,并不能真实反映两个大模型平台的语言模型生成能力,另外不同的大模型对于不同场景的能力也各不相同,因此这里不具备参考性。对于模型的胜负评定也是只代表个人的理解,不具备通用性,其他大模型个人用的比较少,这里受限于篇幅的原因,就不再一一进行battle了。