多模态视觉问答
【Task简介】
给定图片和文本问题作为输入,视觉问答模型会根据对于图片的文本问题,自动生成图片相应的文本答案
【说明视频】
点击链接查看视频:
https://www.yuque.com/modelscope/rdum8e/bdygo2?inner=AfNiv
【输入与输出】
input是一张图片和对应的文本问题,输出是模型自动生成的答案
【场景应用】
能够和机器自动进行各种类型的多模态问答,可以应用到各种人机交互的场景
【数据集链接】
数据集:https://modelscope.cn/datasets/modelscope/vqa_trial/summary
模型文件:https://modelscope.cn/models/damo/mplug_visual-question-answering_coco_large_en