CompassArena 司南大模型测评--代码编写

简介: CompassArena 司南大模型测评--代码编写

测试角度

要说测试模型,对咱们程序员来说,那自然是写代码的能力强不强比较重要了。
那么下面我们以 leetcode 中的一道表面上是困难题的题目来考考各家大模型,看看哪个才应该是咱们日常写程序的帮手。

部分模型回答

问题部分如下截图,后边就不再重复粘贴了。没有做特殊的提示,看看各家模型自己的理解。
这里的难点在于对时间复杂度有要求,看看各个模型能不能注意到这一点。
对于目前(2024-05-31)可用的所有模型做了测试,出于篇幅,这里只贴出来结果比较好的几个模型进行点评。

图片.png

Abab6.5 Chat (MiniMax)

图片.png

Abab6.5 Chat (MiniMax)给出的答案是python写的,估计训练使用python的代码比较多。模型注意到了时间复杂度,并且一直在强调,且给出的代码是可运行的,算法描述也比较清晰,代码加了注释,还不错。

Baichuan 4 (百川智能)

图片.png

我们看到,这里同样使用了python的解法,代码可运行,给出了注释,并且给出了测试用例,解法描述比较清晰,还是不错的。

Hunyuan Pro (腾讯混元)

图片.png

腾讯混元给出了具体的思路和具体步骤,并给出了常规的python解答,中规中矩。

Mixtral 8x22B Instruct (Mistral)

图片.png

Mistral给出了两个思路,并且给出了对应代码的解析,中文描述也很流畅。对于这个我不是很熟的模型,我感觉还是不错的。

Qwen Max 0428 (阿里通义千问)

图片.png

通义千问这个大家都比较熟悉了,它给出了思路和代码,整体还是不错的。

测评总结

在这道题上,文中的各个模型都给出了不错的回答。由于模型的回答会受到提示词的影响,所以这里的测评结果仅供参考。
以下是各个模型在我心目中的排名:

  1. Mistral
  2. MiniMax
  3. 百川智能
  4. Qwen Max 0428
  5. 腾讯混元
目录
相关文章
|
7月前
|
测试技术 UED
测试方案有点难?ChatGPT助你轻松编写测试方案!
使用ChatGPT辅助编写测试方案,以高级搜索功能为例,涉及关键词搜索、过滤条件、界面兼容性、错误处理等测试点。首先明确测试需求,如按作者、时间范围和分类搜索,产品形态为App和Web应用。然后,通过提示词逐步细化方案,包括App的移动设备适配、耗电量和内存占用测试。通过不断优化提示词,确保测试方案全面覆盖功能性能、用户体验及专项测试内容。
|
4月前
|
监控 搜索推荐 语音技术
测试使用SenseVoice大模型测评
测试使用SenseVoice大模型测评
98 4
|
6月前
|
测试技术 UED
课题项目结题测试通常会采用的方法
课题项目结题测试确保项目准确稳定,涉及功能测试、性能测试、安全测试、兼容性测试、用户验收测试及文档审查。这些方法全面评估项目各方面,保证顺利交付和使用,同时促进项目改进。标签:结题测试、软件测试报告。
课题项目结题测试通常会采用的方法
|
5月前
|
人工智能 数据挖掘 UED
设计一个有效的提示工程策略需要遵循系统化的方法
设计一个有效的提示工程策略需要遵循系统化的方法
56 2
|
机器学习/深度学习 人工智能 数据可视化
【网安AIGC专题10.19】论文4:大模型(CODEX 、CodeGen 、INCODER )+自动生成代码评估:改进自动化测试方法、创建测试输入生成器、探索新的评估数据集扩充方法
【网安AIGC专题10.19】论文4:大模型(CODEX 、CodeGen 、INCODER )+自动生成代码评估:改进自动化测试方法、创建测试输入生成器、探索新的评估数据集扩充方法
477 1
|
7月前
|
机器学习/深度学习 数据采集 人工智能
人工智能,应该如何测试?(四)模型全生命周期流程与测试图
本文补充了完整的业务和测试流程,包括生命周期流程图,强调测试人员在模型测试中的角色。主要测试活动有:1) 离线模型测试,使用训练集、验证集和测试集评估模型;2) 线上线下一致性测试,确保特征工程的一致性;3) A/B Test,逐步替换新旧模型以观察效果;4) 线上模型监控,实时跟踪用户行为变化;5) 数据质量测试,验证新数据质量以防影响模型效果。
|
自然语言处理 测试技术 Python
通过Chain Prompts方式将LLM的能力引入测试平台:正交实验测试用例生成
通过Chain Prompts方式将LLM的能力引入测试平台:正交实验测试用例生成
242 0
|
人工智能 Python
智能ai量化合约交易软件开发策略源代码(案例演示)
智能ai量化合约交易软件开发策略源代码(案例演示)
|
测试技术
软件测试技术实战 设计、工具及管理》联载--33
软件测试技术实战 设计、工具及管理》联载--33
90 0
|
机器学习/深度学习 算法 TensorFlow
端智能实践分享:模型评估和编译
在开始端智能技术工程实践的介绍前,有一个无法绕过的问题:端上的计算能力到底如何?虽然我们对神经网络运算加速有所耳闻,也知道不同的移动设备有着不同的加速方案,但没有一个定量的分析很难让我们有一个清晰客观的认识。
668 0
端智能实践分享:模型评估和编译