最近在尝试使用image-text类型的LLM来判断图像。因为是GIS专业的,就随便找了一张街景。采用了Qwen VL Plus模型。
- 首先调用很丝滑。api配置很简单,环境配置很简单。
- 其次费用比较低。平均下来,一张图用了差不多1k token,这样的话,免费额度可以问1,000张。
- 但是回答的幻觉还是有的。
- 在街景图像中。只有google的水印。但是他描述了图片中有地名的存在……
- 文本描述能力上,文风多样。一会儿轻快愉悦。一会儿沉稳。甚至拒绝回答。
最近在尝试使用image-text类型的LLM来判断图像。因为是GIS专业的,就随便找了一张街景。采用了Qwen VL Plus模型。