3月底GLM-5.1刚出来那会儿,群里到处是评测帖,评论区两级分化。有人吹“国产之光”,有人骂“不好用,不如多花点钱上Claude”。
现在热度退了,心态也平了。我聊点真实的。
一、先说说跑分和实际的差距
官方数据好看。SWE-bench Pro上GLM-5.1实现了国产模型首次超越Opus 4.6,8小时长程任务独一档。
但看过太多“评测神、落地崩”的案例,我不太相信跑分。用户群里的反馈也有分歧——有人觉得工程能力是真强,有人反映用起来落差大。
自己上手,用了一个多月。
结论:长程任务确实稳。 比如让它从零做一个完整的订单管理系统,从前端到后端到数据库,大几十步下来没有中途崩溃。清华的一个测评也印证了这点:GLM-5.1能把赛车游戏的跑道选择、道具、加速板等细节全做出来,另外一家竞品就相对简陋一些。
但日常小任务,“帮我改一行代码”这种,优势就没了——和Kimi、DeepSeek差别不大。
二、真正改变我工作流的,不是GLM-5.1本身
这个模型让我意识到一个问题:我根本不该只用一个模型。
写代码用GLM-5.1;长文档分析切到Kimi K2.6(推理强);轻量快速任务用Minimax;省钱走量任务上DeepSeek V4 Flash(极致性价比)。
之前几个平台来回切,买好几份套餐,账单头疼,API调用方式也不一致。
后来换成Canopy Wave,它一个订阅覆盖了我所有需要的模型。GLM-5.1、Kimi K2.6、Minimax、DeepSeek V4 Flash,API都是OpenAI兼容的,换模型改一行环境变量就行,不用重新对接。
三、几个实测场景
场景1:长文档转测试用例
用GLM-5.1处理万字级需求文档,从PRD到JSON格式测试用例再到Python自动化测试代码,全程没掉链子。内容很细,但坦白说,除了GLM-5.1,其他模型也能做,只是要盯得更紧。
场景2:跨模型对比
写API对接代码时,GLM-5.1的指令遵从度明显不错。有次让模型继续之前的任务,用DeepSeek V4 Flash,它会有点“求快”,逻辑完整度差一点;换GLM-5.1就能稳定推进到底。这种感知很微妙,做多了自然会发现差别。
场景3:日常coding
小任务我反而不常用GLM-5.1——Kimi K2.6速度更快,DeepSeek V4 Flash价格更低。会用GLM-5.1的情况,都是“这活儿有点复杂,需要认真对待”的时候。
四、多说几句
GLM-5.1上线一个多月了,新鲜感过了,但它成了我工具箱里的一个选项。跑分好看也好,争议多也好,开发者最终只关心一件事:干活的时候,它能不能帮我少熬两次夜。
目前看,能力够用。至于剩下的5%差距(评测上GLM-5.1达到Opus的94.6%),对大多数日常项目来说真的没那么重要——因为它便宜太多了。
如果你也想试试多模型的路子,我现在的平台是Canopy Wave。GLM-5.1、Kimi K2.6、Minimax、DeepSeek V4 Flash都能用。不是广告,是我真不知道现在还有哪个平台能把这么多主流模型塞进一个订阅里。