文档备案控制台

开发者社区 ModelScope模型即服务正文

我想实现两张或者多张图片的相似度对比功能

目前我不知道那个模型可以实现多张图片对比的功能？能否给一些建议？
我现在正在下载MiniCPM-V-2,他好像只能传单张图片？
也不知道能不能实现我要的效果
我是个新手，求帮助

展开

收起

游客jtt5jq23lywds 2024-04-16 13:22:21 613 版权

阿里云 AI 助理回答

根据您的需求，您希望找到一个能够实现多张图片对比功能的模型。以下是基于知识库资料的详细解答和建议：

1. 支持多张图片输入的模型推荐

在阿里云百炼平台中，以下模型支持多张图片输入，并可以对图片内容进行分析和描述，可能满足您的需求：

通义千问VL模型

功能特点：
- 支持同时传入多张图片（最多3张），并结合文本问题对图片内容进行分析。
- 可以识别图片中的物体、场景、文字等信息，并生成详细的描述。
- 示例：当传入多张图片时，模型可以回答“这些图片分别描绘了什么内容？”或“这些图片有哪些共同点和不同点？”等问题。
适用场景：
- 图片内容对比：例如比较两张图片中的物体差异、场景相似性等。
- 多图联合分析：例如从多张图片中提取关键信息并生成总结。
限制：
- 单次输入的图片数量不能超过3张。
- 每张图片的大小需小于10MB，且宽高比应在合理范围内（宽高比不超过200:1或1:200）。

Qwen-Omni 模型

功能特点：
- 支持多模态输入，包括文本和图片。
- 能够处理多张图片，并结合用户提问生成综合性的回答。
- 示例：您可以上传多张图片并提问“这些图片中有哪些共同的元素？”或“这些图片的内容是否一致？”。
适用场景：
- 图片内容对比与关联分析。
- 多图联合理解与总结。
限制：
- 图片数量受模型图文总Token上限的限制，所有图片的总Token数必须小于模型的最大输入。

2. MiniCPM-V-2 的局限性

您提到正在尝试使用 MiniCPM-V-2，但发现它只能处理单张图片。根据目前的知识库资料，MiniCPM-V-2 确实是一个专注于单图处理的模型，主要用于图片内容的理解和生成描述。如果您需要实现多张图片的对比功能，MiniCPM-V-2 可能无法直接满足需求。

3. 如何实现多张图片对比功能

如果您希望通过上述模型实现多张图片对比功能，可以参考以下步骤：

步骤 1：准备图片数据

确保每张图片符合模型的输入要求：
- 单张图片大小不超过10MB。
- 图片的宽度和高度均大于10像素，宽高比在合理范围内（不超过200:1或1:200）。
- 图片格式支持常见的类型（如JPEG、PNG等）。

步骤 2：调用模型API

使用通义千问VL或Qwen-Omni模型的API接口，将多张图片和相关问题一起传入。

示例代码（Python）：

import os
import dashscope

messages = [
  {
      "role": "system",
      "content": [{"text": "You are a helpful assistant."}]
  },
  {
      "role": "user",
      "content": [
          {"image": "图片1的URL"},
          {"image": "图片2的URL"},
          {"text": "这两张图片有什么不同？"}
      ]
  }
]

response = dashscope.MultiModalConversation.call(
  api_key=os.getenv('DASHSCOPE_API_KEY'),
  model='qwen-vl-max-latest',
  messages=messages
)

print(response.output.choices[0].message.content[0]["text"])

步骤 3：解析模型输出

模型会返回对图片内容的详细描述以及对比结果。您可以根据返回结果进一步分析图片之间的异同。

4. 其他注意事项

Token限制：多张图片的输入会占用较多的Token，建议控制图片数量和分辨率，避免超出模型的Token上限。
高分辨率图片支持：如果您的图片分辨率较高，可以通过设置vl_high_resolution_images=True来提升单张图片的Token上限至16384。
新手建议：如果您是新手，建议先从简单的单图处理开始，熟悉模型的调用方式后再尝试多图输入。

5. 总结与建议

如果您需要实现多张图片对比功能，推荐使用 通义千问VL 或 Qwen-Omni 模型，它们支持多图输入并能生成详细的对比分析。
MiniCPM-V-2 仅支持单图处理，可能无法满足您的需求。
在使用过程中，请注意图片的格式、大小和Token限制，确保输入数据符合模型要求。

希望以上信息对您有所帮助！如果有其他疑问，欢迎随时提问。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉答疑群：44837352

我要提问