RTX5060Ti运行Qwen3-VL-8B-Instruct模型速度慢

RTX5060Ti16G使用的CUDA12.8+CUDNN9.8+Pytorch 2.11.dev,用的8B,运行一张640x480的简单图片,输出耗时54s

但是同样的图片,在RTX4060 12G使用的CUDA11.8+CUDNN9.6+Pytorch2.9,用的4B输出耗时只有4s。
专门测试了2B、4B、8B的5060Ti,基本都在40s以上。
图片是一张3.png

但是未找到任何文字。

未曝出任何错误。

展开
收起
游客2s2fjn5luntxa 2025-12-16 16:55:14 17 分享 版权
0 条回答
写回答
取消 提交回答
问答分类:
问答地址:

阿里云自主研发的通义大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi

还有其他疑问?
咨询AI助理