CompassArena 司南大模型测评--代码编写

简介: CompassArena 司南大模型测评--代码编写

测试角度

要说测试模型,对咱们程序员来说,那自然是写代码的能力强不强比较重要了。
那么下面我们以 leetcode 中的一道表面上是困难题的题目来考考各家大模型,看看哪个才应该是咱们日常写程序的帮手。

部分模型回答

问题部分如下截图,后边就不再重复粘贴了。没有做特殊的提示,看看各家模型自己的理解。
这里的难点在于对时间复杂度有要求,看看各个模型能不能注意到这一点。
对于目前(2024-05-31)可用的所有模型做了测试,出于篇幅,这里只贴出来结果比较好的几个模型进行点评。

图片.png

Abab6.5 Chat (MiniMax)

图片.png

Abab6.5 Chat (MiniMax)给出的答案是python写的,估计训练使用python的代码比较多。模型注意到了时间复杂度,并且一直在强调,且给出的代码是可运行的,算法描述也比较清晰,代码加了注释,还不错。

Baichuan 4 (百川智能)

图片.png

我们看到,这里同样使用了python的解法,代码可运行,给出了注释,并且给出了测试用例,解法描述比较清晰,还是不错的。

Hunyuan Pro (腾讯混元)

图片.png

腾讯混元给出了具体的思路和具体步骤,并给出了常规的python解答,中规中矩。

Mixtral 8x22B Instruct (Mistral)

图片.png

Mistral给出了两个思路,并且给出了对应代码的解析,中文描述也很流畅。对于这个我不是很熟的模型,我感觉还是不错的。

Qwen Max 0428 (阿里通义千问)

图片.png

通义千问这个大家都比较熟悉了,它给出了思路和代码,整体还是不错的。

测评总结

在这道题上,文中的各个模型都给出了不错的回答。由于模型的回答会受到提示词的影响,所以这里的测评结果仅供参考。
以下是各个模型在我心目中的排名:

  1. Mistral
  2. MiniMax
  3. 百川智能
  4. Qwen Max 0428
  5. 腾讯混元
目录
相关文章
|
5月前
|
测试技术 UED
测试方案有点难?ChatGPT助你轻松编写测试方案!
使用ChatGPT辅助编写测试方案,以高级搜索功能为例,涉及关键词搜索、过滤条件、界面兼容性、错误处理等测试点。首先明确测试需求,如按作者、时间范围和分类搜索,产品形态为App和Web应用。然后,通过提示词逐步细化方案,包括App的移动设备适配、耗电量和内存占用测试。通过不断优化提示词,确保测试方案全面覆盖功能性能、用户体验及专项测试内容。
71 1
|
机器学习/深度学习 自然语言处理 安全
LLM系列 | 12: 如何编写思维链Prompt?以智能客服为例
本文介绍如何编写ChatGPT的思维链Prompt从而为用户提供智能客服服务。在智能客服场景中,经常会有用户询问对比各种产品的价格,如何让智能客服提供准确的答案?这就需要在构建Prompt过程中引入思维链的编写方式。
|
机器学习/深度学习 编解码 算法
超详细!手把手带你轻松掌握 MMDetection 整体构建流程(一)
作为系列文章的第一篇解读,本文主要是从整体框架构建角度来解析,不会涉及到具体算法和代码,希望通过本文讲解: - MMDetection 整体构建流程和思想 - 目标检测算法核心组件划分 - 目标检测核心组件功能
900 0
超详细!手把手带你轻松掌握 MMDetection 整体构建流程(一)
|
2月前
|
监控 搜索推荐 语音技术
测试使用SenseVoice大模型测评
测试使用SenseVoice大模型测评
63 4
|
2月前
|
监控 安全 测试技术
测试与开发问题之为什么测试开发工程师需要有安全生产意识,文档编写能力对于测试开发工程师的重要性如何理解
测试与开发问题之为什么测试开发工程师需要有安全生产意识,文档编写能力对于测试开发工程师的重要性如何理解
|
4月前
|
监控 Kubernetes 测试技术
概括模型开发部署流程
**模型部署流程概览:**训练完成的大型语言模型经验证评估,进行剪枝量化后导出为标准格式。封装成API,部署到云服务器,考虑GPU资源与安全。通过Docker或Kubernetes管理,集成后端服务,确保负载均衡和安全。监控性能,执行A/B测试和灰度发布,持续优化与维护。每个步骤涉及团队协作与线上稳定性。
45 1
|
5月前
|
JavaScript Java 测试技术
基于Java的心理测评系统的设计与实现(源码+lw+部署文档+讲解等)
基于Java的心理测评系统的设计与实现(源码+lw+部署文档+讲解等)
53 1
|
10月前
|
设计模式 人工智能 测试技术
软件测试/人工智能|如何使用ChatGPT编写符合PO模式的数据驱动测试框架
软件测试/人工智能|如何使用ChatGPT编写符合PO模式的数据驱动测试框架
102 0
|
测试技术
软件测试技术实战 设计、工具及管理》联载--33
软件测试技术实战 设计、工具及管理》联载--33
82 0
|
机器学习/深度学习 算法 TensorFlow
端智能实践分享:模型评估和编译
在开始端智能技术工程实践的介绍前,有一个无法绕过的问题:端上的计算能力到底如何?虽然我们对神经网络运算加速有所耳闻,也知道不同的移动设备有着不同的加速方案,但没有一个定量的分析很难让我们有一个清晰客观的认识。
638 0
端智能实践分享:模型评估和编译
下一篇
无影云桌面