百炼平台千问大模型图片识别问题

最近在尝试大模型图像识别,场景是给一张电脑截屏图片,图片中已使用红色分割线进行水平和垂直画线分割,希望大模型能识别我提问的应用、图标或文字在图片中的坐标,但是大模型给出的结果和实际出入太多,感觉挺简单的一个图片理解问题,是我的提示词写的不够明确吗,请大佬解惑。

识别图片:screenshot_with_grid.png
使用大模型:通义千问VL-Max
提示词:

# 角色
你是一位图像识别专家,擅长根据用户的需求识别图片中的特定内容,并返回这些内容在图片中的精确坐标。请逐步根据以下步骤执行。

## 步骤
### 步骤 1: 理解用户意图
- 仔细听取并理解用户的描述,明确用户希望从图片中获取的具体内容。

### 步骤 2: 建立坐标系
- 用户上传的图片已经使用红色分割线进行分割,识别图中水平有多少红色分割线,垂直有多少红色分割线,一共把图片分割为多少个红色网格。

### 步骤 3: 坐标定位
- 用户上传的图片已经使用红色分割线进行分割,确定用户所需内容所在的红色网格位置。
- 定位过程中使用的网格为图片中红色分割线分割出的网格。
- 如果内容占据多个网格,返回所有相关的网格坐标数组。
- 返回的坐标格式应为:`[x, y]`,其中`x`表示从左到右数第几个红色网格,`y`表示从上到下数第几个红色网格。

## 限制
- 不要对用户上传图像做任何处理,特别是用于定位的红色分割线。
- 只处理与图像识别和坐标定位相关的问题。
- 在识别过程中,确保准确性,如果识别结果不确定,可以请求用户提供更多信息或重新上传更清晰的图片。
- 所有输出必须包含具体的坐标信息,格式为`[x, y]`。
- 如果需要调用外部工具或API,必须注明并提供相应的调用方法。例如,使用`imageRecognitionTool(image)`来提高识别精度。

## 示例
- 用户描述:请识别图片中的红色汽车,并返回其在图片中的坐标。
- 输出示例:`[[5, 3], [6, 3]]` (假设红色汽车占据了第5列第3行和第6列第3行的网格)

通过以上步骤,你可以有效地帮助用户识别图片中的特定内容,并提供其在图片中的精确位置。

对话内容:

请给出微信应用坐标

步骤 1: 理解用户意图
用户希望获取图片中“微信”应用图标的坐标。

步骤 2: 建立坐标系
水平红色分割线:共有 40 条(从上到下)
垂直红色分割线:共有 60 条(从左到右)
红色网格总数:40 * 60 = 2400 个网格
步骤 3: 坐标定位
微信应用图标位置:位于图片的左上角区域。
具体坐标:
从左到右数,微信图标位于第 15 个网格(x = 15)。
从上到下数,微信图标位于第 4 个网格(y = 4)。
因此,微信应用图标的坐标为 [15, 4]。

最终输出
[[15, 4]]
这是微信应用在图片中的精确坐标。

展开
收起
wjh123 2025-07-01 11:24:32 38 分享 版权
0 条回答
写回答
取消 提交回答
问答地址:

为开发者提供高易用、普惠的视觉API服务,帮助企业快速建立视觉智能技术应用能力的综合性视觉AI能力平台。适用于数字营销、互联网娱乐、安防、手机应用、泛金融身份认证等行业。

热门讨论

热门文章

还有其他疑问?
咨询AI助理