产品
解决方案
文档与社区
权益中心
定价
云市场
合作伙伴
支持与服务
了解阿里云
备案
控制台
开发者社区
首页
探索云世界
探索云世界
云上快速入门,热门云上应用快速查找
了解更多
问产品
动手实践
考认证
TIANCHI大赛
活动广场
活动广场
丰富的线上&线下活动,深入探索云世界
任务中心
做任务,得社区积分和周边
高校计划
让每位学生受益于普惠算力
训练营
资深技术专家手把手带教
话题
畅聊无限,分享你的技术见解
开发者评测
最真实的开发者用云体验
乘风者计划
让创作激发创新
阿里云MVP
遇见技术追梦人
直播
技术交流,直击现场
下载
下载
海量开发者使用工具、手册,免费下载
镜像站
极速、全面、稳定、安全的开源镜像
技术资料
开发手册、白皮书、案例集等实战精华
插件
为开发者定制的Chrome浏览器插件
探索云世界
新手上云
云上应用构建
云上数据管理
云上探索人工智能
云计算
弹性计算
无影
存储
网络
倚天
云原生
容器
serverless
中间件
微服务
可观测
消息队列
数据库
关系型数据库
NoSQL数据库
数据仓库
数据管理工具
PolarDB开源
向量数据库
热门
Modelscope模型即服务
弹性计算
云原生
数据库
物联网
云效DevOps
龙蜥操作系统
平头哥
钉钉开放平台
大数据
大数据计算
实时数仓Hologres
实时计算Flink
E-MapReduce
DataWorks
Elasticsearch
机器学习平台PAI
智能搜索推荐
人工智能
机器学习平台PAI
视觉智能开放平台
智能语音交互
自然语言处理
多模态模型
pythonsdk
通用模型
开发与运维
云效DevOps
钉钉宜搭
支持服务
镜像站
码上公益
开发者社区
机器之心
文章
正文
能看图、会聊天,还会跨模态推理和定位,能落地复杂场景的DetGPT来了
2023-05-25
154
版权
版权声明:
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《
阿里云开发者社区用户服务协议
》和 《
阿里云开发者社区知识产权保护指引
》。如果您发现本社区中有涉嫌抄袭的内容,填写
侵权投诉表单
进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
简介:
能看图、会聊天,还会跨模态推理和定位,能落地复杂场景的DetGPT来了
一直以来,人类梦想着机器人能够辅助人类处理生活和工作的事情。“请帮我调低空调的温度”,甚至 “请帮我写一个商城网站” 都在近年来的家居助手和 OpenAI 发布的 Copilot 上得以实现。
GPT-4 的出现,进一步为我们展示了多模态大模型在视觉理解上的潜力。开源中小模型方面,LLAVA、minigpt-4 表现不俗,可以看图聊天,还可以为人类猜测美食图片中的菜谱。然而,这些模型在实际落地中仍然面临重要的挑战:没有精准的定位能力,不能给出某物体在图片中的具体位置,也不能理解人类的复杂指令来检测具体物体,因此很多时候无法执行人类的具体任务。在实际场景中,人们遇到复杂问题,如果能通过拍一张照来询问智能助手得到正确答案,这样的 “拍照问问” 功能简直炫酷。
要实现 “拍照问问” 这一功能,需要机器人具备多项能力:
1. 语言理解能力:能够听懂并理解人类的意图
2. 视觉理解能力:能够理解看到的画面中的物体
3. 常识推理能力:能够将复杂的人类意图转换为可定位的精确目标
4. 物体定位能力:能够从画面中定位和检测出对应物体
这四大能力,目前仅有少数的大模型(比如谷歌的 PaLM-E)同时具备。然而,来自港科大 & 港大的研究人员提出了一个全开源模型 DetGPT (全名 DetectionGPT),只需微调三百万参数量,让模型轻松拥有了复杂推理和局部物体定位能力,可以泛化到大多数场景。这意味着模型能够通过自身知识的推理来理解人类抽象指令,轻松识别图片中的人类感兴趣的物体!他们已经将模型做成 “拍照问问” demo,欢迎在线体验:
https://detgpt.github.io/
DetGPT 可以让用户用自然语言操作一切,不需要繁琐的命令或者界面。同时,DetGPT 还具备智能推理和目标检测能力,可以准确地理解用户的需求和意图。例如人类发一个语言指令 “我想喝冷饮”,机器人首先在场景里搜索冷饮,但是没有找到。于是开始思考 “场景里没有冷饮,我应该去哪里找”。通过强大的常识推理能力模型想到了冰箱,于是扫描场景画面发现了冰箱,成功锁定饮料位置!
开源代码:
https://github.com/OptimalScale/DetGP
T
Demo 在线试玩:
https://detgpt.github.io/
夏天口渴,图片里哪里会有冰饮料?DetGPT 轻松理解找到冰箱:
明天要早起?DetGPT 轻松 pick 电子闹钟:
高血压、容易累?去到水果市场,不清楚买什么水果能缓解高血压?DetGPT 充当你的营养学老师:
塞尔达游戏不会通关?DetGPT 助你变装通过女儿国关卡:
图片的视野范围内有什么危险事物?DetGPT 成为保护你的安全员:
图片里有什么物品对小孩来说很危险?DetGPT 依然没问题:
DetGPT 有什么特性?
对图片中具体物体的理解能力大幅提升。相比于以往的图文对话多模态模型,我们能够通过理解用户指令从图片中检索并定位出目标物体,而不是单纯对整张图做出描述。
能理解人类复杂指令,降低用户的提问门槛。比如,模型可以理解问题 “找到图中能够缓解高血压的食物”。而传统目标检测需要人类已知答案,提前预设检测类别 “香蕉”。
DetGPT 能根据已有 LLM 知识进行推理,从而精确定位到图中能解决复杂任务的对应物体。对于复杂的任务,比如 “缓解高血压的食物”。DetGPT 可以对这一复杂任务逐步推理:缓解高血压 -> 钾元素能够缓解高血压 -> 香蕉富含钾元素 -> 香蕉可以缓解高血压 -> 需要识别物体香蕉
提供人类常识范围之外的答案。对一些不常见的问题,比如人类不了解哪些水果富含钾,模型能根据已有知识进行解答。
值得关注的新方向:利用常识推理实现更精准开集目标检测
传统检测任务要求预设可能的物体类别,从而进行检测。但是精确且全面描述要检测的物体,对人类来说是不友好的,甚至是不现实的。具体而言,(1)受到有限记忆 / 知识的限制,人并不总能精确表述自己想要检测的目标物体。比如,医生建议有高血压的人多吃水果补充钾元素,但不了解哪些水果富含钾,就无法给出具体的水果名称让模型去检测;如果能直接把问题 “把能缓解高血压的水果识别出来” 抛给检测模型,人类只需要拍一张照片,模型自身去思考、推理、和检测富含钾的水果,这个问题就简单许多。(2)人类能举例物体类别是不全面的。比如,如果相对公共场所不符合公共秩序的行为进行监控,人类或许能只能简单列出几个场景如持刀、吸烟;但如果直接把问题 “检测不符合公共秩序的行为” 交给检测模型,模型自己进行思考、根据自己的知识进行推理,则能捕捉到更多的不良行为和泛化到更多需要检测的相关类别。毕竟普通人类所了解的知识是有限的,能够举出来的物体类别也是有限的,但如果有一个类似 ChatGPT 的大脑进行辅助和推理,人类所需要给出的指令就简单多了,所获的答案也能精确、全面许多。
基于人类指令的抽象性和局限性,港科大 & 港大的研究人员提出 “推理型目标检测 ” 这一新方向。简单来说,就是人类给出一些抽象的任务,模型能自己去理解、推理图片里的哪些物体可能完成这一任务,并将其检测出来。举个简单的例子,人类描述 “我想喝一杯冷饮,在哪里可以找到它”,模型看到的是一张厨房的照片,它能够把 “冰箱” 检测出来。这一课题要求将多模态模型的图像理解能力与语言大模型储藏的丰富知识完美结合、用于细粒度的检测任务场景中:利用语言模型的大脑来理解人类的抽象指令,精确地定位图片中人类感兴趣的物体,而不需要预设物体类别。
方法介绍
“推理型目标检测 ” 是一个困难的问题,因为检测器不仅需要对用户的粗粒度 / 抽象的指令进行理解和推理,更要分析当前所看到的视觉信息,从而定位出目标物体。在这一方向上,港科大 & 港大的研究人员进行了一些初步的探索。具体而言,他们利用预训练好的视觉编码器 (BLIP-2) 来获取图片视觉特征,通过一个对齐函数 (alignment function) 将视觉特征对齐到文本空间。利用大规模语言模型 (Robin/Vicuna) 来理解用户问题,结合看到的视觉信息,对用户真正感兴趣的物体进行推理。然后将物体名称提供给预训练好的检测器 (Grouding-DINO) 进行具体位置的预测。这样一来,模型可以根据用户的任何指令分析图片,精准地预测出用户感兴趣物体的位置。
值得注意的是这里的难点主要在于,针对不同具体任务,模型要能够实现特定格式(task-specific)的输出,而尽可能不损害模型原本的能力。为指导语言模型遵循特定的模式,在理解图像和用户指令的前提下进行推理和生成符合目标检测格式的输出,研究团队利用 ChatGPT 生成跨模态 instruction data 来微调模型。具体而言,基于 5000 个 coco 图片,他们利用 ChatGPT 创建了 3w 个跨模态图像 - 文本微调数据集。为了提高训练的效率,他们固定住其他模型参数,只学习跨模态线性映射。实验效果证明,即使只有线性层被微调,语言模型也能够理解细粒度的图像特征,并遵循特定的模式来执行基于推理的图像检测任务、表现出优异的性能。
这一研究课题具有非常大的潜力。基于这一技术,家庭机器人领域将进一步大放异彩:家庭中的人们可以通过抽象或者粗粒度的语音指令,让机器人理解、识别、并定位需要的物品,提供相关服务。在工业机器人领域,这种技术更将焕发出无尽的活力:工业机器人可以与人类工作人员更加自然地协作,准确理解他们的指令和需求,实现智能化的决策和操作。在生产线上,人类工作人员可以通过粗粒度的语音指令或文字输入,让机器人自动理解、识别并定位需要加工的物品,从而提高生产效率和质量。
基于自带推理能力的目标检测模型,我们可以开发出更加智能化、自然化、高效化的机器人,为人类提供更加便捷、高效和人性化的服务。这是一个具有广阔前景的领域。也值得更多研究者的进行关注和进一步探索。
值得一提的是,DetGPT 支持多种语言模型,目前已经基于 Robin-13B 和 Vicuna-13B 两个语言模型进行验证。Robin 系列语言模型是港科大 LMFlow 团队(
https://github.com/OptimalScale/LMFlow
)训练的对话模型,在多项语言能力测评基准上达到了和 Vicuna 相当的效果(模型下载:
https://github.com/OptimalScale/LMFlow#model-zoo
)。之前机器之心报道过 LMFlow 团队在消费级显卡 3090 上只需 5 小时训练
专属 ChatGPT
,今天这一团队联合港大 NLP 实验室又给我们带来了多模态的惊喜。
文章标签:
计算机视觉
自然语言处理
监控
机器人
-开发达人-
目录
相关文章
楠竹11
|
16天前
|
人工智能
搜索推荐
测试技术
让智能体像孩子一样观察别人学习动作,跨视角技能学习数据集EgoExoLearn来了
【4月更文挑战第11天】EgoExoLearn是一个大规模数据集,用于模拟人类通过观察视频学习任务的能力,包含120小时的日常生活和实验室场景视频,重点是第一人称视角和注视数据。该数据集提供多模态注释,设有跨视角动作理解等基准测试,旨在推动AI模仿人类行为的研究。尽管有挑战,如视角转换和多样性问题,但EgoExoLearn为AI学习和融入人类环境开辟了新途径。
楠竹11
19
1
1
cuicuicuic
|
1月前
|
存储
数据处理
API
视觉智能平台常见问题之通用视频生成接口声音和画面对不上如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
cuicuicuic
25
3
3
cuicuicuic
|
1月前
|
机器学习/深度学习
编解码
API
视觉智能平台常见问题之分割后的图片尺寸会变得比较大如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
cuicuicuic
20
0
0
是Yu欸
|
5月前
|
机器学习/深度学习
自然语言处理
算法
【网安AIGC专题10.25】论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性
【网安AIGC专题10.25】论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性
是Yu欸
77
0
0
-开发达人-
|
11月前
|
机器学习/深度学习
编解码
人工智能
AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用
AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用
-开发达人-
190
0
0
-开发达人-
|
11月前
|
机器学习/深度学习
编解码
计算机视觉
真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换
真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换
-开发达人-
54
0
0
技术小达人
|
11月前
|
机器学习/深度学习
人工智能
安全
OpenAI发布GPT-4,做题能力更强,还接受图片输入,看懂梗图无障碍!
OpenAI发布GPT-4,做题能力更强,还接受图片输入,看懂梗图无障碍!
技术小达人
181
0
0
-开发达人-
|
11月前
|
机器学习/深度学习
数据采集
人工智能
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
-开发达人-
196
0
0
-开发达人-
|
11月前
|
机器学习/深度学习
人工智能
自然语言处理
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
-开发达人-
107
0
0
-开发达人-
|
11月前
|
机器学习/深度学习
自然语言处理
文字识别
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾(1)
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
-开发达人-
259
0
0
热门文章
最新文章
1
详细讲解!Canal+Kafka实现MySQL与Redis数据同步!
2
nslookup 域名结果正确,但是 ping 域名失败
3
Linux查看进程的内存占用情况
4
大咖云集,技术宅开趴倒计时 —— 2017 Kubernetes Meetup | 成都站
5
用无人机和机器人倒垃圾,沃尔沃做到了
6
[20180123]测试SQLNET.EXPIRE_TIME参数2
7
Webservice 的设计和模式
8
良好的代码书写格式:适时的代码缩进
9
Asp.Net复合控件疑难与解决——尴尬的生命周期
10
CSS样式的优先级
1
解放配置之道:Spring引入外部属性文件
16
2
公钥密码学:解密加密的魔法世界
19
3
深入剖析:OSI模型解密
20
4
TCP IP协议簇:网络通信的基石
19
5
数字藏品开发原理丨鲸探幻核数字藏品系统开发功能分析
18
6
深入探讨MySQL中Varchar(50)和Varchar(500)的区别
18
7
如何实现基于Redis的在线人数统计功能?
20
8
MySQL锁解密:读锁与写锁
11
9
解锁MySQL的奥秘:探究表级锁、行级锁和页级锁的神秘面纱
10
10
MySQL锁之较量:悲观锁与乐观锁的对决
11
相关课程
更多
创空间应用训练个性化模型
跨越N次元 一键变身AI漫画人
视觉AI技术体系及趋势概述
机器阅读技术与应用
模型融合方法概述
阿里小蜜中的机器阅读技术
相关电子书
更多
优化4K制作流程打造“4K视觉云”
优化4K制作流程,创建“4K视觉云”服务
对视觉智能未来发展的几点思考
相关实验场景
更多
如何快速体验调用通义大模型
配置流程编排实现根据天气情况播放歌曲
函数计算部署AI艺术字应用,生成新春文字头像
使用函数计算部署通义千问大模型实现AI对话
使用计算巢AI应用,轻松定制个人数字形象
利用大模型大规模分发技术,实现AIGC在线应用秒级弹性
下一篇
部署LAMP环境(Alibaba Cloud Linux 3)