文档备案控制台

开发者社区 ModelScope模型即服务多模态正文

【求助】关于使用Qwen2-7B-VL多模型模型识别图片某个元素的坐标的问题

关于使用Qwen2-7B-VL多模型模型识别图片某个元素的坐标的问题
我在使用的时候，模型返回的坐标很不准确

这是图片上两个位置相差较大的文字元素，但是模型返回的坐标居然是一样的。针对这种情况需要怎么处理。求助！！

展开

收起

游客ffug4tlsqqei4 2024-11-12 15:21:23 935 版权

1 条回答

写回答

取消提交回答

LucianaiB

热衷于探索AI前沿技术，擅长AI与Mass平台相关的产品推广与代理类文章评测宣传，欢迎交流。文章结尾联系我。MCP开发者 | Agent开发者 | RPA开发者 | 阿里云社区专家博主｜支付宝社区优秀创作博主｜腾讯云创作之星｜极星会KOL｜影刀+实在双RPA高级认证｜51CTO TOP红人

您可以尝试使用Qwen2-7B-VL模型的物体检测功能来获取图片中特定元素的坐标，具体操作方法可以参考阿里云官方文档中的模型使用指南。如果遇到具体技术问题，建议咨询一下阿里云的工作人员。如果对您有帮助的话，可以帮忙采纳一下。谢谢。

2025-02-10 15:41:05

赞同 143 展开评论

相关问答

通义灵码会话界面，对于带Thing 的模型，回答后折叠思考内容

267

0

0

阿里云百炼ai大模型平台支持哪些模型？

1333

1

0

通义灵码2.5.16版本。没有deepseekR1模型了吗？

1244

4

0

加载Qwen/Qwen-7B-Chat模型报错

442

0

0

qwen-max、plus等模型加入系统提示词后降智严重，没加提示词可正常返回

622

1

0

能否请大佬大佬在魔搭上上传一下 Citrus1.0-Qwen-72B模型

694

0

0

Qwen2.5-14B-Instruct-GPTQ-Int4量化模型是只能在GPU上运行吗？

715

0

0

qwen模型微调上传数据集时，如何书写数据集的本地路径？

411

0

0

通义灵码在VScode中不能切换模型，切换模型处是禁用状态

696

1

0

通义灵码使用deepseek模型时怎么指定不要使用深度思考

988

1

0

ModelScope模型即服务

多模态

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

我要提问

相关文章

别再只依赖 ChatGPT 了：多模型协同，才是 AI 项目走向生产的关键一步

从统计相关性到结构性必然性：一个解决AI幻觉与对齐问题的框架探讨

Claude Code 源码泄露，升级 OpenClaw 的研究方案

🔥【零基础逆袭】我用Python写了个量化策略，3天赚了别人3年的钱！（附完整代码+教程）

企业AI中台为什么要把AI工作助理放在第一优先级！

相关解决方案

更多

GLM-5.2：长任务时代开源旗舰模型

基于 Spark 和 PyTorch 的模型训练方案

OpenAI 重磅开源，快速部署GPT-OSS模型

模型蒸馏：让0.6B模型媲美235B模型

一键训练模型及部署GPU共享推理服务

热门讨论

热门文章

请问MNN支持在高通或者MTK平台上部署大模型吗？

部署服务（SwingDeploy）免费部署的模型调用失败

多模态模型的发展趋势：迄今为止最先进的模型，跨模态 GAN，多模态 Transformer

mPLUG图像描述模型-中文-base 如何finetune得到的？

怎么修改model scope的默认存储位置

为什么用vllm部署qwen2-2b-vl，传输2张照片却，只回答一张照片的问题？

关于qwen2-vl微调最佳实践

图文匹配：Clip模型介绍

该模型在在线环境使用下运行报错。

下载数据集报错：UnicodeDecodeError: 'utf-8' codec can't de

展开全部

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

GLM-4V-Flash：智谱 AI 免费开放的图像理解大模型 API 接口

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

AstrBot：轻松将大模型接入QQ、微信等消息平台，打造多功能AI聊天机器人的开发框架，附详细教程

音乐人必看！OpenUtau：开源AI歌声合成神器，快速打造专业级虚拟歌手，中文日文无缝切换

昆仑万维开源 Skywork R1V：开源多模态推理核弹！视觉链式分析超越人类专家

阿里开源AI视频生成大模型 Wan2.1：14B性能超越Sora、Luma等模型，一键生成复杂运动视频

AnythingLLM：34K Star！一键上传文件轻松打造个人知识库，构建只属于你的AI助手，附详细部署教程

Univer：开源全栈 AI 办公工具，支持 Word、Excel、PPT 等文档处理和多人实时协作

Agno：18.7K Star！快速构建多模态智能体的轻量级框架，运行速度比LangGraph快5000倍！

展开全部

还有其他疑问?