CompassArena 司南大模型测评--代码编写

简介: CompassArena 司南大模型测评--代码编写

测试角度

要说测试模型,对咱们程序员来说,那自然是写代码的能力强不强比较重要了。
那么下面我们以 leetcode 中的一道表面上是困难题的题目来考考各家大模型,看看哪个才应该是咱们日常写程序的帮手。

部分模型回答

问题部分如下截图,后边就不再重复粘贴了。没有做特殊的提示,看看各家模型自己的理解。
这里的难点在于对时间复杂度有要求,看看各个模型能不能注意到这一点。
对于目前(2024-05-31)可用的所有模型做了测试,出于篇幅,这里只贴出来结果比较好的几个模型进行点评。

图片.png

Abab6.5 Chat (MiniMax)

图片.png

Abab6.5 Chat (MiniMax)给出的答案是python写的,估计训练使用python的代码比较多。模型注意到了时间复杂度,并且一直在强调,且给出的代码是可运行的,算法描述也比较清晰,代码加了注释,还不错。

Baichuan 4 (百川智能)

图片.png

我们看到,这里同样使用了python的解法,代码可运行,给出了注释,并且给出了测试用例,解法描述比较清晰,还是不错的。

Hunyuan Pro (腾讯混元)

图片.png

腾讯混元给出了具体的思路和具体步骤,并给出了常规的python解答,中规中矩。

Mixtral 8x22B Instruct (Mistral)

图片.png

Mistral给出了两个思路,并且给出了对应代码的解析,中文描述也很流畅。对于这个我不是很熟的模型,我感觉还是不错的。

Qwen Max 0428 (阿里通义千问)

图片.png

通义千问这个大家都比较熟悉了,它给出了思路和代码,整体还是不错的。

测评总结

在这道题上,文中的各个模型都给出了不错的回答。由于模型的回答会受到提示词的影响,所以这里的测评结果仅供参考。
以下是各个模型在我心目中的排名:

  1. Mistral
  2. MiniMax
  3. 百川智能
  4. Qwen Max 0428
  5. 腾讯混元
目录
相关文章
|
5月前
|
测试技术 UED
测试方案有点难?ChatGPT助你轻松编写测试方案!
使用ChatGPT辅助编写测试方案,以高级搜索功能为例,涉及关键词搜索、过滤条件、界面兼容性、错误处理等测试点。首先明确测试需求,如按作者、时间范围和分类搜索,产品形态为App和Web应用。然后,通过提示词逐步细化方案,包括App的移动设备适配、耗电量和内存占用测试。通过不断优化提示词,确保测试方案全面覆盖功能性能、用户体验及专项测试内容。
71 1
|
12月前
|
Web App开发 前端开发 JavaScript
网页前端项目评审参考标准
网页前端项目评审参考标准
81 0
|
26天前
|
存储 DataWorks 数据挖掘
方案内容的技术细节评估
该方案通过明确的文档指导、可用的代码示例及数据分析需求评估,提升用户体验。文档需详列操作步骤与资源要求,并提供异常处理指南;代码示例应保持更新,附带错误处理与必要注释;方案需评估数据处理规模、复杂分析功能及实时性需求,以确定是否需额外优化或补充策略。总体而言,方案在基础架构描述上表现良好,但需在技术细节等方面进一步完善。
|
2月前
|
监控 搜索推荐 语音技术
测试使用SenseVoice大模型测评
测试使用SenseVoice大模型测评
63 4
|
2月前
|
监控 安全 测试技术
测试与开发问题之为什么测试开发工程师需要有安全生产意识,文档编写能力对于测试开发工程师的重要性如何理解
测试与开发问题之为什么测试开发工程师需要有安全生产意识,文档编写能力对于测试开发工程师的重要性如何理解
|
3月前
|
人工智能 数据挖掘 UED
设计一个有效的提示工程策略需要遵循系统化的方法
设计一个有效的提示工程策略需要遵循系统化的方法
35 2
|
4月前
|
测试技术 UED
课题项目结题测试通常会采用的方法
课题项目结题测试确保项目准确稳定,涉及功能测试、性能测试、安全测试、兼容性测试、用户验收测试及文档审查。这些方法全面评估项目各方面,保证顺利交付和使用,同时促进项目改进。标签:结题测试、软件测试报告。
课题项目结题测试通常会采用的方法
|
5月前
|
安全 数据管理 测试技术
网络安全与信息安全:防范漏洞、加强加密与提升安全意识深入探索自动化测试框架的设计原则与实践应用化测试解决方案。文章不仅涵盖了框架选择的标准,还详细阐述了如何根据项目需求定制测试流程,以及如何利用持续集成工具实现测试的自动触发和结果反馈。最后,文中还将讨论测试数据管理、测试用例优化及团队协作等关键问题,为读者提供全面的自动化测试框架设计与实施指南。
【5月更文挑战第27天】 在数字化时代,网络安全与信息安全已成为维护国家安全、企业利益和个人隐私的重要环节。本文旨在分享关于网络安全漏洞的识别与防范、加密技术的应用以及提升安全意识的重要性。通过对这些方面的深入探讨,我们希望能为读者提供一些实用的建议和策略,以应对日益严峻的网络安全挑战。 【5月更文挑战第27天】 在软件开发周期中,自动化测试作为保障软件质量的关键步骤,其重要性日益凸显。本文旨在剖析自动化测试框架设计的核心原则,并结合具体案例探讨其在实际应用中的执行策略。通过对比分析不同测试框架的优缺点,我们提出一套高效、可扩展且易于维护的自动
|
5月前
|
监控 机器人 数据安全/隐私保护
|
5月前
|
存储 XML 数据格式
流程建模艺术:使用Activiti设计流程
流程建模艺术:使用Activiti设计流程
64 0
下一篇
无影云桌面