CompassArena 司南大模型测评--代码编写

简介: CompassArena 司南大模型测评--代码编写

测试角度

要说测试模型,对咱们程序员来说,那自然是写代码的能力强不强比较重要了。
那么下面我们以 leetcode 中的一道表面上是困难题的题目来考考各家大模型,看看哪个才应该是咱们日常写程序的帮手。

部分模型回答

问题部分如下截图,后边就不再重复粘贴了。没有做特殊的提示,看看各家模型自己的理解。
这里的难点在于对时间复杂度有要求,看看各个模型能不能注意到这一点。
对于目前(2024-05-31)可用的所有模型做了测试,出于篇幅,这里只贴出来结果比较好的几个模型进行点评。

图片.png

Abab6.5 Chat (MiniMax)

图片.png

Abab6.5 Chat (MiniMax)给出的答案是python写的,估计训练使用python的代码比较多。模型注意到了时间复杂度,并且一直在强调,且给出的代码是可运行的,算法描述也比较清晰,代码加了注释,还不错。

Baichuan 4 (百川智能)

图片.png

我们看到,这里同样使用了python的解法,代码可运行,给出了注释,并且给出了测试用例,解法描述比较清晰,还是不错的。

Hunyuan Pro (腾讯混元)

图片.png

腾讯混元给出了具体的思路和具体步骤,并给出了常规的python解答,中规中矩。

Mixtral 8x22B Instruct (Mistral)

图片.png

Mistral给出了两个思路,并且给出了对应代码的解析,中文描述也很流畅。对于这个我不是很熟的模型,我感觉还是不错的。

Qwen Max 0428 (阿里通义千问)

图片.png

通义千问这个大家都比较熟悉了,它给出了思路和代码,整体还是不错的。

测评总结

在这道题上,文中的各个模型都给出了不错的回答。由于模型的回答会受到提示词的影响,所以这里的测评结果仅供参考。
以下是各个模型在我心目中的排名:

  1. Mistral
  2. MiniMax
  3. 百川智能
  4. Qwen Max 0428
  5. 腾讯混元
目录
打赏
0
0
1
0
28
分享
相关文章
《 自动化测试最佳实践:来自全球的经典自动化测试案例解析》一一3.4 每月服务评审记分卡样例
本节书摘来自华章出版社《 自动化测试最佳实践:来自全球的经典自动化测试案例解析 》一 书中的第3章,第3. 4 节,作者:(英)Dorothy Graham Mark Fewster 著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看
1608 0
测试方案有点难?ChatGPT助你轻松编写测试方案!
使用ChatGPT辅助编写测试方案,以高级搜索功能为例,涉及关键词搜索、过滤条件、界面兼容性、错误处理等测试点。首先明确测试需求,如按作者、时间范围和分类搜索,产品形态为App和Web应用。然后,通过提示词逐步细化方案,包括App的移动设备适配、耗电量和内存占用测试。通过不断优化提示词,确保测试方案全面覆盖功能性能、用户体验及专项测试内容。
通过Langchain实现大模型完成测试用例生成的代码(可集成到各种测试平台)
通过Langchain实现大模型完成测试用例生成的代码(可集成到各种测试平台)
2151 0
测试使用SenseVoice大模型测评
测试使用SenseVoice大模型测评
127 4
《 自动化测试最佳实践:来自全球的经典自动化测试案例解析》一一1.8 引入工程冲刺
本节书摘来自华章出版社《 自动化测试最佳实践:来自全球的经典自动化测试案例解析 》一 书中的第1章,第1. 8节,作者:(英)Dorothy Graham Mark Fewster 著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看
1074 0

热门文章

最新文章

相关实验场景

更多
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等