通义千问-14B:预训练模型 ,是在海量文本上训练出来的预测后续文本的模型:后续文本未必是对指令和对话的响应。通义千问-14B-对话:对话模型,是在预训练模型继续做微调和强化学习,让它接受指令和用户对话时,续写出来的是人类预期的assistant的响应内容。通义千问-14B-对话-int4:量化后的对话模型,将浮点计算转成低比特定点计算,可以有效的降低模型计算强度、参数大小和显存消耗,简单理解上就是推理使用显存更小,11G显存就可以推理,但是精度会有较少的下降。,此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”