文档备案控制台

开发者社区阿里云百炼正文

通义千问VL-Max等VL系列的视觉模型图像定位bbox漂移严重，请官方修正一下

我自己测试了一些APP截图，用VL系列大模型寻求可点击区域的位置。例如以这张为例：
原图为
图像宽高为：432*960（这个宽高在官方文档描述的【物体定位效果较为鲁棒】的区间）
使用模型：通义千问VL-Max
promt为：请给出页面可点击元素的bbox和其描述，以json格式返回
根据返回信息中的bbox坐标画框，得到的结果如下所示：

可以看到漂移是相当严重的，而且漂移现象主要集中在页面右下侧部分。
事实上我根据官方文档link
中找到的示例来画框，
微信截图_20250726224105.png

也可以看到漂移现象，同样是集中在右下侧区域。
千问VL系列是相当优秀的大模型，也请官方重视一下这种小瑕疵，感谢你们~

展开

收起

游客cjknibf26o6ec 2025-07-26 22:52:16 596 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

0 条回答

写回答

取消提交回答

问答分类：

数据格式 JSON 大模型服务平台百炼

问答地址：

开发者社区 > 阿里云百炼 > 问答

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

93115

50

0

this xml file does not appear to have any style in

61594

11

0

访问ECS服务器的网站提示“由于你访问的URL可能对网站造成安全威胁，您的访问被阻断”，这是什么原因？

142502

16

0

C语言数组赋值报错，打印出来的是乱码，怎么解决？

1643

1

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

285392

11

0

基础语言百问-Python

69954

30

0

阿里云怎样设置二级域名以及域名解析？

66962

14

0

#支付宝授权提示请在支付宝客户端打开链接

25157

19

0

C语言中default使用注意事项是什么？

1691

1

0

搭建dnf私服需要大概啥配置的

10603

2

0

阿里云百炼

基于千问系列大模型和开源大模型的一站式大模型服务平台，提供「生成式大模型的全流程应用工具」和「企业大模型的全链路训练工具」。为大模型，也为小应用。阿里云百炼产品介绍页面：https://www.aliyun.com/product/bailian

我要提问

相关文章

Agentforce 客户聊天体验开发指南

基于录音转写与大模型的家装客户概览生成实践

大模型长文本处理实践：基于分段提取与结果合并生成结构化摘要

保姆级教程：从零手搓一个 Agent Skill，让AI变成你的专属助手

RFID 固定资产管理系统：优化盘点流程的有效方案

相关解决方案

更多

GLM-5.2：长任务时代开源旗舰模型

OpenAI 重磅开源，快速部署GPT-OSS模型

基于 Spark 和 PyTorch 的模型训练方案

轻松打造一站式图像智能检索引擎

模型蒸馏：让0.6B模型媲美235B模型

热门讨论

热门文章

当面对多种不同格式的文档时，如何让AI系统更好地处理复杂文档？

Kimi-K2-Instruct 开了挂一般的推理和调用，底层魔法是什么？

消息格式会显著影响模型的reasoning行为

关于Invalid API-key provided问题

免费用户的token还没开始用就报错

智能体应用调用时无法读取session_file_ids对应文档

AI陪练 VS 真人教学，你更喜欢哪一个？

MCP Agent是如何加速AI应用或工作流的开发？

阿里云百炼这个问题怎么解决？

零代码搭建 DeepSeek 版个人知识库，你想试试吗？

展开全部

字符编码知识以及相互之间的转换

如何查看Oracle客户端版本

通过编程发现Java死锁

阿里云百炼平台详解：官网入口链接、免费AI大模型领取及常见问题解答FAQ

从零搭建企业私有知识库：RAG + 大模型实战（附完整代码）

阿里云百炼 API 调用教程：准备 API-Key、配置环境变量和调用 API 流程

百炼 Skills 实战：novel-game——让零基础用户把故事变成可玩的互动小说游戏

阿里云百炼上线Qwen3.7-Max，支持API与Token Plan调用，解析及配置实战指南

智谱GLM-5.2登陆阿里云百炼：100万Token免费领，智谱旗舰模型快速体验全指南

Claude Code 国内开发实战：从接入到多模型混合编排

展开全部

还有其他疑问?