我在自己的电脑上本地部署了Qwen3.5的几个小模型,在软件环境完全相同的,提出问题也相同的情况下,得到了如下的测试
结果:
第一次测试结果:
qwen3.5 0.8B 耗时 323.6914972 秒
qwen3.0 4B 耗时 216.2048938 秒
第二次测试结果:
qwen3.5 0.8b 耗时 113.0595229 秒
qwen3.0 4b 耗时 83.0959226 秒
其中第二次是在关闭思维链路以后得到的测试结果,可以看到耗时大幅缩减了。但是两次测试结果都是0.8b模型耗费的时间比4b模型耗费的时间要长很多。请问这是什么原因呢?有没有再进一步优化的可能?
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉答疑群:44837352