我想实现两张或者多张图片的相似度对比功能

目前我不知道那个模型可以实现多张图片对比的功能?能否给一些建议?
我现在正在下载MiniCPM-V-2,他好像只能传单张图片?
也不知道能不能实现我要的效果
我是个新手,求帮助

展开
收起
游客jtt5jq23lywds 2024-04-16 13:22:21 581 分享 版权
阿里云 AI 助理回答

根据您的需求,您希望找到一个能够实现多张图片对比功能的模型。以下是基于知识库资料的详细解答和建议:


1. 支持多张图片输入的模型推荐

在阿里云百炼平台中,以下模型支持多张图片输入,并可以对图片内容进行分析和描述,可能满足您的需求:

通义千问VL模型

  • 功能特点
    • 支持同时传入多张图片(最多3张),并结合文本问题对图片内容进行分析。
    • 可以识别图片中的物体、场景、文字等信息,并生成详细的描述。
    • 示例:当传入多张图片时,模型可以回答“这些图片分别描绘了什么内容?”或“这些图片有哪些共同点和不同点?”等问题。
  • 适用场景
    • 图片内容对比:例如比较两张图片中的物体差异、场景相似性等。
    • 多图联合分析:例如从多张图片中提取关键信息并生成总结。
  • 限制
    • 单次输入的图片数量不能超过3张。
    • 每张图片的大小需小于10MB,且宽高比应在合理范围内(宽高比不超过200:1或1:200)。

Qwen-Omni 模型

  • 功能特点
    • 支持多模态输入,包括文本和图片。
    • 能够处理多张图片,并结合用户提问生成综合性的回答。
    • 示例:您可以上传多张图片并提问“这些图片中有哪些共同的元素?”或“这些图片的内容是否一致?”。
  • 适用场景
    • 图片内容对比与关联分析。
    • 多图联合理解与总结。
  • 限制
    • 图片数量受模型图文总Token上限的限制,所有图片的总Token数必须小于模型的最大输入。

2. MiniCPM-V-2 的局限性

您提到正在尝试使用 MiniCPM-V-2,但发现它只能处理单张图片。根据目前的知识库资料,MiniCPM-V-2 确实是一个专注于单图处理的模型,主要用于图片内容的理解和生成描述。如果您需要实现多张图片的对比功能,MiniCPM-V-2 可能无法直接满足需求。


3. 如何实现多张图片对比功能

如果您希望通过上述模型实现多张图片对比功能,可以参考以下步骤:

步骤 1:准备图片数据

  • 确保每张图片符合模型的输入要求:
    • 单张图片大小不超过10MB。
    • 图片的宽度和高度均大于10像素,宽高比在合理范围内(不超过200:1或1:200)。
    • 图片格式支持常见的类型(如JPEG、PNG等)。

步骤 2:调用模型API

  • 使用通义千问VL或Qwen-Omni模型的API接口,将多张图片和相关问题一起传入。
  • 示例代码(Python):

    import os
    import dashscope
    
    messages = [
      {
          "role": "system",
          "content": [{"text": "You are a helpful assistant."}]
      },
      {
          "role": "user",
          "content": [
              {"image": "图片1的URL"},
              {"image": "图片2的URL"},
              {"text": "这两张图片有什么不同?"}
          ]
      }
    ]
    
    response = dashscope.MultiModalConversation.call(
      api_key=os.getenv('DASHSCOPE_API_KEY'),
      model='qwen-vl-max-latest',
      messages=messages
    )
    
    print(response.output.choices[0].message.content[0]["text"])
    

步骤 3:解析模型输出

  • 模型会返回对图片内容的详细描述以及对比结果。您可以根据返回结果进一步分析图片之间的异同。

4. 其他注意事项

  • Token限制:多张图片的输入会占用较多的Token,建议控制图片数量和分辨率,避免超出模型的Token上限。
  • 高分辨率图片支持:如果您的图片分辨率较高,可以通过设置vl_high_resolution_images=True来提升单张图片的Token上限至16384。
  • 新手建议:如果您是新手,建议先从简单的单图处理开始,熟悉模型的调用方式后再尝试多图输入。

5. 总结与建议

  • 如果您需要实现多张图片对比功能,推荐使用 通义千问VLQwen-Omni 模型,它们支持多图输入并能生成详细的对比分析。
  • MiniCPM-V-2 仅支持单图处理,可能无法满足您的需求。
  • 在使用过程中,请注意图片的格式、大小和Token限制,确保输入数据符合模型要求。

希望以上信息对您有所帮助!如果有其他疑问,欢迎随时提问。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉答疑群:44837352

热门讨论

热门文章

还有其他疑问?
咨询AI助理