关于OFA图像描述模型,ofa_image-caption_coco_large_en 目前代码样例,是直接输出了 一句话描述 比如,一幅图里面,有两只鸟和一棵树,最终描述:两只鸟在一棵树上。 我希望 不仅得到 这样一句描述,是否在推断过程中,还存在 更丰富的数据,我这边可以通过调整代码获取到,比如 1)图片中有哪些对象:鸟1,鸟2,树 2)甚至他们的位置信息,颜色信息? 其它模型,可以实现这些,但是意味着需要加载多个模型,消耗更多资源。能否通过单个模型,单次推理中获得这些信息呢?
这个单个模型还能研究一下通过不同的prompt和inference策略实现,但是单次推断就做不到了,最起码解码策略要做多次。此答案整理自钉钉群“ModelScope开发者联盟群 ①”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。