大模型battle,哪家才是真的“价美”也“物美”

简介: 【6月更文挑战第10天】大模型battle,哪家才是真的“价美”也“物美”

近期不少头部大模型厂商纷纷官宣大幅降价或免费,在价格战背后,到底哪家才是真的“诚意”好货,如何客观、公正地评估和比较模型的效果,也是广为业界讨论和探索的话题。

物美价廉

看到这个话题,其实还是挺感兴趣的,在大模型时代,不管是企业还是个人,都希望以最低的成本来获取最大的效益,通俗点说就是【物美价廉】,那么如何才算是物美价廉呢?

何为物美价廉

物美价廉包含两部分:【价廉】是明码标价,不同大模型厂家的价格可以到不同厂家提供的大模型官网页面查看,这个一目了然,没什么争议。

但是【物美】该如何判断,什么样的大模型,或者说哪个厂家的大模型是真的物美呢?这就需要我们借助今天的【OpenCompass大模型竞技场】来让各个大模型之间进行battle,看看效果如何,这样在心里至少对各厂家的大模型有一个基础的认知了。

大模型battle

在进行各厂家大模型battle之前,我先让通义千问帮我生成了几个battle用的问题。

由于篇幅的关系,我的大模型battle对象选择模型A和模型B,battle的问题就按照上面6个场景依次进行并且附上评价。

进入OpenCompass大模型竞技场,选择大模型【ERNIE 4.0 8K 0329】和【Qwen1.5 72B Chat】,battle开始...

基础能力测试:

输入内容【给出古诗“静夜思”的原文,并解释诗中所蕴含的情感和意象】

image.png

我认真的看了两家大模型对于古诗 静夜思 所蕴含的情感和意象的描述,关于诗人内心的孤寂,思念故乡的心境都理解到位,模型B更详细一些

专业能力测试:

输入内容【解释DNA复制的过程,并讨论其中的关键酶及其功能】

image.png

关于这个问题的回答,结果基本也就一目了然,模型A主要关心的是问题的后半句的解释,而模型B关注的是问题整体的解释,模型B回答内容更丰富详尽一些

中文特性能力测试:

输入内容【分析并解释“绿水青山就是金山银山”这句话背后的哲学思想和现实意义】

image.png

image.png


这个问题我截了两幅图,为什么截两幅图,大家基本也就一眼能看出来原因了。先不说内容准确度,模型A整体没有问题,而模型B的话在生成过程中没有问题,待生成结束时就突然出来了这个异常码,尝试了三次均是这个结果,

逻辑推理能力测试:

输入内容【假设所有A都是B,有些B是C,那么可以推断出哪些关于A和C的关系?请给出理由】

image.png

这个问题结合个人的理解,模型A的回答更严谨,也更正确一些,而模型B回答的分析详细的情况。

创新能力测试:

输入内容【创造一个新的科幻故事情节,其中人工智能与人类共同探索外太空的新家园】

image.png

这里截图只能显示两个大模型厂家关于这个问题的部分内容,但是还是可以看出,模型A在创新上更符合条件,整个故事情节也是现有影视作品没有的,而模型B给出的回答内容也有一定的可参考性

安全性与合规性测试:

输入内容【针对网络欺凌现象,提出一套有效的预防和应对策略,确保平台内容健康】

image.png

从截图上来看,模型A和模型B回复的都比较全面丰富。

写在最后

以上的测试样本比较少,并不能真实反映两个大模型平台的语言模型生成能力,另外不同的大模型对于不同场景的能力也各不相同,因此这里不具备参考性。对于模型的胜负评定也是只代表个人的理解,不具备通用性,其他大模型个人用的比较少,这里受限于篇幅的原因,就不再一一进行battle了。


相关文章
|
10月前
|
人工智能 PyTorch 算法框架/工具
OpenAI联创Karpathy爱上羊驼:纯C代码实现婴儿Llama2,MacBook可运行,已揽1.6k星
OpenAI联创Karpathy爱上羊驼:纯C代码实现婴儿Llama2,MacBook可运行,已揽1.6k星
400 0
|
1月前
|
固态存储 算法 计算机视觉
CV目标检测 Task04:不讲武德-炼丹与品尝 终于,神功初成,可以开始施展拳脚了 打卡笔记
CV目标检测 Task04:不讲武德-炼丹与品尝 终于,神功初成,可以开始施展拳脚了 打卡笔记
50 0
|
机器学习/深度学习 人工智能 并行计算
谷歌下一代AI架构、Jeff Dean宣传大半年的Pathways终于有论文了
谷歌下一代AI架构、Jeff Dean宣传大半年的Pathways终于有论文了
370 0
|
人工智能 编解码 自然语言处理
7 Papers & Radios | 爆火论文打造《西部世界》雏形;OpenAI终结扩散模型
7 Papers & Radios | 爆火论文打造《西部世界》雏形;OpenAI终结扩散模型
120 0
|
机器学习/深度学习 自然语言处理 搜索推荐
7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉(2)
7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉
218 0
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉
7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉
173 0
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频(1)
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频
110 0
|
机器学习/深度学习 自然语言处理 网络架构
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频(2)
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频
137 0
|
机器学习/深度学习 传感器 自然语言处理
7 Papers & Radios | MIT造出薄如纸的音响;腾讯「绝艺」打麻将战胜人类冠军(2)
7 Papers & Radios | MIT造出薄如纸的音响;腾讯「绝艺」打麻将战胜人类冠军
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | MIT造出薄如纸的音响;腾讯「绝艺」打麻将战胜人类冠军(1)
7 Papers & Radios | MIT造出薄如纸的音响;腾讯「绝艺」打麻将战胜人类冠军