前端大模型应用笔记(五):大模型基础能力大比拼-计数篇-通义千文 vs 文心一言 vs 智谱 vs 讯飞vsGPT

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
简介: 本文对比测试了通义千文、文心一言、智谱和讯飞等多个国产大模型在处理基础计数问题上的表现,特别是通过链式推理(COT)提示的效果。结果显示,GPTo1-mini、文心一言3.5和讯飞4.0Ultra在首轮测试中表现优秀,而其他模型在COT提示后也能显著提升正确率,唯有讯飞4.0-Lite表现不佳。测试强调了COT在提升模型逻辑推理能力中的重要性,并指出免费版本中智谱GLM较为可靠。

在大语言模型(LLM)不断涌现的时代,如何评估这些国产大模型的逻辑推理能力,尤其是在处理基础计数问题上的表现,成为了一个备受关注的话题。随着越来越多的国产大模型进入市场,比较它们在不同任务中的表现尤为重要。本文聚焦于计数这一基础能力,对通义千文、文心一言、智谱以及讯飞的多个版本进行了对比测试,探索它们在处理简单逻辑题时的表现,并特别考察了推理链(Chain-of-Thought,COT)方法的必要性,以揭示这些模型在实际应用场景中的逻辑推理深度。

主要是非娱乐的业务场景,对于准确性、基础逻辑能力和理解能力要求较高,如果一个模型通过提示也无法变得更好,就很难在生产环境使用了

计数测试场景:“一一遇见给一个小孩子一个冰淇淋和一个糖果”

在测试中,我们使用了一道简单的计数题:“一一遇见给一个小孩子一个冰淇淋和一个糖果”,要求模型回答这句话中一共有几个“一”。正确答案是 5,其中包含了“一一遇见”、“一个小孩子”、“一个冰淇淋”以及“一个糖果”。这种类型的题目虽然简单,但对于大语言模型来说,能否正确回答却反映了模型对文本细节的理解能力。

第一轮测试结果

  • GPTo1-mini:5(正确)
    GPTo1-mini
    GPTo1-mini 成功给出了正确答案“5”。这说明它在处理基础计数任务时表现非常稳定,展示了较强的文本细节理解能力。

  • GPT4o:4(错误)
    GPT4o
    GPT4o 在这次测试中错误地给出了答案“4”。这表明它在处理重复性计数的细节时可能存在一些不足。

  • 通义千文2.5:3(错误)
    通义千文2.5
    通义千文2.5 给出了错误答案“3”,并详细解释了其原因,显然对于“一一”的解释存在偏差。这也反映出它在识别特定表达时缺乏对上下文的全面理解。

  • 文心一言3.5:5(正确)
    文心一言3.5
    文心一言3.5 成功给出了正确的答案,展示了它在基础计数和对“一”的理解方面的优异表现。

  • 智谱GLM-4-plus:3(错误)
    智谱GLM-4-plus
    智谱GLM-4-plus 在这一轮中错误地给出了答案“3”。这表明它在处理计数时对相似的重复元素的识别存在一定的挑战。

  • 讯飞4.0Ultra:5(正确)
    讯飞4.0Ultra
    讯飞4.0Ultra 准确地回答了“5”,这说明它具备良好的文本理解和计数能力,能够正确分析和识别句中的重复元素。

  • 讯飞4.0-Lite:2(错误)
    讯飞4.0-Lite
    讯飞4.0-Lite 显然未能正确理解题意,只给出了答案“2”,这表明其在处理细节分析方面存在明显的不足。

败者组再战:COT 提示的效果

为了进一步考察这些模型的推理能力,我们对未能通过第一轮测试的模型进行了提示调整,引导它们使用链式推理(COT)的方法,即“请仔细思考”。这一提示的目的在于测试模型在获得引导和提示后的表现是否有所改善,从而验证 COT 的有效性。

  • GPT4o:5(正确)
    GPT4o-COT
    经过提示引导,GPT4o 成功得出了正确答案“5”。这表明链式推理的提示能够帮助 GPT4o 更好地理解和分析文本细节。

  • 讯飞4.0-Lite:2(错误)
    讯飞4.0-Lite-COT
    尽管提示了仔细思考,讯飞4.0-Lite 依然没有改变其错误答案。这说明即使有 COT 提示,该模型在处理类似计数任务时仍然存在不足,可能与其整体推理能力的局限性有关。

  • 智谱GLM-4:5(正确)
    智谱GLM-4-COT
    在 COT 提示下,智谱GLM-4 成功得出了正确答案,这说明链式推理提示能够帮助其更好地逐步分析文本,从而提高正确率。

  • 通义千文2.5:5(正确)
    通义千文2.5-COT
    通义千文2.5 在链式推理提示下也得出了正确答案“5”,进一步表明该模型在获得适当提示时,其逻辑推理能力得到了有效激发。

总结:COT 能力的重要性

在这次测试中,GPTo1-mini、文心一言3.5、讯飞4.0Ultra 成功通过了第一轮测试,而 GPT4o、智谱GLM-4、通义千文2.5 则在经过 COT 提示后取得了正确答案。这说明大多数大模型在面临逻辑推理和计数任务时,借助 COT 提示能够显著提高其正确率。链式推理提示可以让模型逐步分析问题,从而减少犯错的概率。

唯一的失败者是 讯飞4.0-Lite,即使在提示下也未能改善其答案,这反映了其在推理链方面的不足。这表明该模型在面对需要复杂推理的任务时,仍有待提高,这可能需要进一步的算法优化和训练改进。

其实大模型还有不少,比如扣子等,但效果不是很理想

补充:免费模型

目前文心、讯飞、智谱都有免费版本,正如这次的测试结果一样,免费版本下的glm比较靠谱,相对来说文心和讯飞的免费版本性能就一般,除非娱乐或简单场景,难以应用。

待改善部分

  • 更多的大模型 - 因为某些原因,有些大模型无法体验或使用,尤其是比较想用到的盘古大模型
  • 更好的比对方式 - 如果国产大模型有类似竞技场的就好了,但国外的那个因为网络和接入原因并不能够很好的测试国产商用大模型
  • 更多的测试项目 - 本文只是给新人提一个思路,具体的可以扩散性思维发挥

最后强调一下,这个测试并不是很严谨,仅仅是一次简单的测试,不构成任何的商业建议,如果使用免费版本,glm挺不错,开源的模型llama3.2:3b在提示一步步计算时就可以胜任了,还是希望过程大模型越来越好吧

目录
相关文章
|
6天前
|
编解码 Java 程序员
写代码还有专业的编程显示器?
写代码已经十个年头了, 一直都是习惯直接用一台Mac电脑写代码 偶尔接一个显示器, 但是可能因为公司配的显示器不怎么样, 还要接转接头 搞得桌面杂乱无章,分辨率也低,感觉屏幕还是Mac自带的看着舒服
|
8天前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1562 10
|
1月前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
11天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
738 27
|
8天前
|
存储 SQL 关系型数据库
彻底搞懂InnoDB的MVCC多版本并发控制
本文详细介绍了InnoDB存储引擎中的两种并发控制方法:MVCC(多版本并发控制)和LBCC(基于锁的并发控制)。MVCC通过记录版本信息和使用快照读取机制,实现了高并发下的读写操作,而LBCC则通过加锁机制控制并发访问。文章深入探讨了MVCC的工作原理,包括插入、删除、修改流程及查询过程中的快照读取机制。通过多个案例演示了不同隔离级别下MVCC的具体表现,并解释了事务ID的分配和管理方式。最后,对比了四种隔离级别的性能特点,帮助读者理解如何根据具体需求选择合适的隔离级别以优化数据库性能。
225 3
|
14天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
780 5
|
2天前
|
Python
【10月更文挑战第10天】「Mac上学Python 19」小学奥数篇5 - 圆和矩形的面积计算
本篇将通过 Python 和 Cangjie 双语解决简单的几何问题:计算圆的面积和矩形的面积。通过这道题,学生将掌握如何使用公式解决几何问题,并学会用编程实现数学公式。
108 60
|
1天前
|
人工智能
云端问道12期-构建基于Elasticsearch的企业级AI搜索应用陪跑班获奖名单公布啦!
云端问道12期-构建基于Elasticsearch的企业级AI搜索应用陪跑班获奖名单公布啦!
115 1
|
3天前
|
Java 开发者
【编程进阶知识】《Java 文件复制魔法:FileReader/FileWriter 的奇妙之旅》
本文深入探讨了如何使用 Java 中的 FileReader 和 FileWriter 进行文件复制操作,包括按字符和字符数组复制。通过详细讲解、代码示例和流程图,帮助读者掌握这一重要技能,提升 Java 编程能力。适合初学者和进阶开发者阅读。
104 61
|
14天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】