CompassArena 司南大模型测评--代码编写-阿里云开发者社区

CompassArena 司南大模型测评--代码编写

2024-05-31 80

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： CompassArena 司南大模型测评--代码编写

测试角度

要说测试模型，对咱们程序员来说，那自然是写代码的能力强不强比较重要了。
那么下面我们以 leetcode 中的一道表面上是困难题的题目来考考各家大模型，看看哪个才应该是咱们日常写程序的帮手。

问题部分如下截图，后边就不再重复粘贴了。没有做特殊的提示，看看各家模型自己的理解。
这里的难点在于对时间复杂度有要求，看看各个模型能不能注意到这一点。
对于目前（2024-05-31）可用的所有模型做了测试，出于篇幅，这里只贴出来结果比较好的几个模型进行点评。

图片.png

图片.png

Abab6.5 Chat (MiniMax)给出的答案是python写的，估计训练使用python的代码比较多。模型注意到了时间复杂度，并且一直在强调，且给出的代码是可运行的，算法描述也比较清晰，代码加了注释，还不错。

图片.png

我们看到，这里同样使用了python的解法，代码可运行，给出了注释，并且给出了测试用例，解法描述比较清晰，还是不错的。

图片.png

腾讯混元给出了具体的思路和具体步骤，并给出了常规的python解答，中规中矩。

图片.png

Mistral给出了两个思路，并且给出了对应代码的解析，中文描述也很流畅。对于这个我不是很熟的模型，我感觉还是不错的。

图片.png

通义千问这个大家都比较熟悉了，它给出了思路和代码，整体还是不错的。

在这道题上，文中的各个模型都给出了不错的回答。由于模型的回答会受到提示词的影响，所以这里的测评结果仅供参考。
以下是各个模型在我心目中的排名：