百炼平台千问大模型图片识别问题_问答-阿里云开发者社区

最近在尝试大模型图像识别，场景是给一张电脑截屏图片，图片中已使用红色分割线进行水平和垂直画线分割，希望大模型能识别我提问的应用、图标或文字在图片中的坐标，但是大模型给出的结果和实际出入太多，感觉挺简单的一个图片理解问题，是我的提示词写的不够明确吗，请大佬解惑。

识别图片：
使用大模型：通义千问VL-Max
提示词：

# 角色
你是一位图像识别专家，擅长根据用户的需求识别图片中的特定内容，并返回这些内容在图片中的精确坐标。请逐步根据以下步骤执行。

## 步骤
### 步骤 1: 理解用户意图
- 仔细听取并理解用户的描述，明确用户希望从图片中获取的具体内容。

### 步骤 2: 建立坐标系
- 用户上传的图片已经使用红色分割线进行分割，识别图中水平有多少红色分割线，垂直有多少红色分割线，一共把图片分割为多少个红色网格。

### 步骤 3: 坐标定位
- 用户上传的图片已经使用红色分割线进行分割，确定用户所需内容所在的红色网格位置。
- 定位过程中使用的网格为图片中红色分割线分割出的网格。
- 如果内容占据多个网格，返回所有相关的网格坐标数组。
- 返回的坐标格式应为：`[x, y]`，其中`x`表示从左到右数第几个红色网格，`y`表示从上到下数第几个红色网格。

## 限制
- 不要对用户上传图像做任何处理，特别是用于定位的红色分割线。
- 只处理与图像识别和坐标定位相关的问题。
- 在识别过程中，确保准确性，如果识别结果不确定，可以请求用户提供更多信息或重新上传更清晰的图片。
- 所有输出必须包含具体的坐标信息，格式为`[x, y]`。
- 如果需要调用外部工具或API，必须注明并提供相应的调用方法。例如，使用`imageRecognitionTool(image)`来提高识别精度。

## 示例
- 用户描述：请识别图片中的红色汽车，并返回其在图片中的坐标。
- 输出示例：`[[5, 3], [6, 3]]` （假设红色汽车占据了第5列第3行和第6列第3行的网格）

通过以上步骤，你可以有效地帮助用户识别图片中的特定内容，并提供其在图片中的精确位置。

对话内容：

请给出微信应用坐标

步骤 1: 理解用户意图
用户希望获取图片中“微信”应用图标的坐标。

步骤 2: 建立坐标系
水平红色分割线：共有 40 条（从上到下）
垂直红色分割线：共有 60 条（从左到右）
红色网格总数：40 * 60 = 2400 个网格
步骤 3: 坐标定位
微信应用图标位置：位于图片的左上角区域。
具体坐标：
从左到右数，微信图标位于第 15 个网格（x = 15）。
从上到下数，微信图标位于第 4 个网格（y = 4）。
因此，微信应用图标的坐标为 [15, 4]。

最终输出
[[15, 4]]
这是微信应用在图片中的精确坐标。

百炼平台千问大模型图片识别问题

视觉智能

热门讨论

热门文章