CompassArena 司南大模型测评--代码编写

简介: CompassArena 司南大模型测评--代码编写

测试角度

要说测试模型,对咱们程序员来说,那自然是写代码的能力强不强比较重要了。
那么下面我们以 leetcode 中的一道表面上是困难题的题目来考考各家大模型,看看哪个才应该是咱们日常写程序的帮手。

部分模型回答

问题部分如下截图,后边就不再重复粘贴了。没有做特殊的提示,看看各家模型自己的理解。
这里的难点在于对时间复杂度有要求,看看各个模型能不能注意到这一点。
对于目前(2024-05-31)可用的所有模型做了测试,出于篇幅,这里只贴出来结果比较好的几个模型进行点评。

图片.png

Abab6.5 Chat (MiniMax)

图片.png

Abab6.5 Chat (MiniMax)给出的答案是python写的,估计训练使用python的代码比较多。模型注意到了时间复杂度,并且一直在强调,且给出的代码是可运行的,算法描述也比较清晰,代码加了注释,还不错。

Baichuan 4 (百川智能)

图片.png

我们看到,这里同样使用了python的解法,代码可运行,给出了注释,并且给出了测试用例,解法描述比较清晰,还是不错的。

Hunyuan Pro (腾讯混元)

图片.png

腾讯混元给出了具体的思路和具体步骤,并给出了常规的python解答,中规中矩。

Mixtral 8x22B Instruct (Mistral)

图片.png

Mistral给出了两个思路,并且给出了对应代码的解析,中文描述也很流畅。对于这个我不是很熟的模型,我感觉还是不错的。

Qwen Max 0428 (阿里通义千问)

图片.png

通义千问这个大家都比较熟悉了,它给出了思路和代码,整体还是不错的。

测评总结

在这道题上,文中的各个模型都给出了不错的回答。由于模型的回答会受到提示词的影响,所以这里的测评结果仅供参考。
以下是各个模型在我心目中的排名:

  1. Mistral
  2. MiniMax
  3. 百川智能
  4. Qwen Max 0428
  5. 腾讯混元
目录
相关文章
|
7月前
|
测试技术 UED
测试方案有点难?ChatGPT助你轻松编写测试方案!
使用ChatGPT辅助编写测试方案,以高级搜索功能为例,涉及关键词搜索、过滤条件、界面兼容性、错误处理等测试点。首先明确测试需求,如按作者、时间范围和分类搜索,产品形态为App和Web应用。然后,通过提示词逐步细化方案,包括App的移动设备适配、耗电量和内存占用测试。通过不断优化提示词,确保测试方案全面覆盖功能性能、用户体验及专项测试内容。
|
7月前
|
分布式计算 测试技术 Spark
通过Langchain实现大模型完成测试用例生成的代码(可集成到各种测试平台)
通过Langchain实现大模型完成测试用例生成的代码(可集成到各种测试平台)
1989 0
|
24天前
|
开发者
在代码维护中,Qwen-coder可以通过多种方式提升编程效率和代码质量
Qwen-coder在代码维护中发挥着重要作用,帮助开发者提高代码质量,减少错误,提升开发效率。这些功能使得Qwen-coder成为代码维护和开发过程中的有力助手。
93 52
|
2月前
|
前端开发 JavaScript 数据库
VSCode编程助手工程能力体验报告(一):通义灵码 - 帮你高效切入新项目、编码和提升质量
我是一位软件工程师,用通义灵码个人版vscode插件的workspace做项目分析和复盘,对比之前没有灵码,现在提效了80%,本文介绍了具体的使用流程。
132 2
|
4月前
|
监控 搜索推荐 语音技术
测试使用SenseVoice大模型测评
测试使用SenseVoice大模型测评
97 4
|
3月前
|
缓存 编译器 Linux
Linux内核开发流程指南 - 4. 编写正确的代码【ChatGPT】
Linux内核开发流程指南 - 4. 编写正确的代码【ChatGPT】
|
3月前
|
机器学习/深度学习 Linux 开发工具
Linux内核开发流程指南 - 5. 编写正确的代码【ChatGPT】
Linux内核开发流程指南 - 5. 编写正确的代码【ChatGPT】
|
4月前
|
监控 安全 测试技术
测试与开发问题之为什么测试开发工程师需要有安全生产意识,文档编写能力对于测试开发工程师的重要性如何理解
测试与开发问题之为什么测试开发工程师需要有安全生产意识,文档编写能力对于测试开发工程师的重要性如何理解
|
机器学习/深度学习 人工智能 数据可视化
【网安AIGC专题10.19】论文4:大模型(CODEX 、CodeGen 、INCODER )+自动生成代码评估:改进自动化测试方法、创建测试输入生成器、探索新的评估数据集扩充方法
【网安AIGC专题10.19】论文4:大模型(CODEX 、CodeGen 、INCODER )+自动生成代码评估:改进自动化测试方法、创建测试输入生成器、探索新的评估数据集扩充方法
475 1
|
自然语言处理 测试技术 Python
通过Chain Prompts方式将LLM的能力引入测试平台:正交实验测试用例生成
通过Chain Prompts方式将LLM的能力引入测试平台:正交实验测试用例生成
241 0