开发者社区 > ModelScope模型即服务 > 正文

ModelScope中,qwen有没有能力传入照片后分析出照片中物体的3d坐标?

ModelScope中,qwen有没有能力传入照片后分析出照片中物体的3d坐标?

展开
收起
小小爱吃香菜 2024-03-26 22:24:27 55 0
2 条回答
写回答
取消 提交回答
  • 3d坐标目前还不能。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。https://www.modelscope.cn/models/qwen/Qwen-VL-Chat/summary 此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

    2024-03-27 12:25:21
    赞同 展开评论 打赏
  • 阿里云大降价~

    Qwen系列模型是阿里巴巴推出的大型多模态模型,其中包括视觉语言模型Qwen-VL。根据目前公开的信息,Qwen具备处理视觉信息能力,但具体是否能够直接分析出照片中物体的3D坐标,这一功能并未明确提及

    Qwen-VL作为视觉多模态版本的大型模型,其主要特点是结合了视觉和语言的处理能力,这意味着它能够理解和分析图像内容,并结合语言信息进行交互和推理。在视觉识别领域,模型通常需要识别和理解图像中的物体、场景和文本等信息。然而,从2D图像中直接提取3D坐标是一项复杂的任务,通常需要专门的算法和技术来处理,如深度学习中的立体匹配、深度估计或使用3D传感器数据。

    如果您需要从照片中获取物体的3D坐标,可能需要专门的3D视觉技术或者结合其他硬件设备来实现。例如,使用深度相机或者结构光技术来捕捉物体的三维信息,或者通过计算机视觉算法如立体视觉、光学测距等方法来估算3D坐标。此外,还可以考虑使用专业的3D建模软件或者服务来进行更为复杂的3D重建工作。

    总之,虽然Qwen系列模型在视觉多模态领域具有强大的能力,但关于其是否能够直接输出照片中物体的标,目前没有确切的信息。如果需要实现这一功能,可能需要结合其他技术和设备来完成。

    2024-03-27 08:48:28
    赞同 展开评论 打赏

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载