视觉问答

简介: 多模态视觉问答

【Task简介】

给定图片和文本问题作为输入,视觉问答模型会根据对于图片的文本问题,自动生成图片相应的文本答案


【说明视频】


【输入与输出】

input是一张图片和对应的文本问题,输出是模型自动生成的答案


【场景应用】

能够和机器自动进行各种类型的多模态问答,可以应用到各种人机交互的场景


【数据集链接】

数据集:https://modelscope.cn/datasets/modelscope/vqa_trial/summary

模型文件:https://modelscope.cn/models/damo/mplug_visual-question-answering_coco_large_en/files

相关实践学习
基于函数计算实现AI推理
本场景基于函数计算建立一个TensorFlow Serverless AI推理平台。
相关文章
|
6月前
|
机器学习/深度学习 监控 自动驾驶
视觉智能详解
视觉智能详解
203 1
|
6月前
|
人工智能 文字识别 安全
关于“文档图像前沿技术探索 —多模态及图像安全”专题报告分享
>10月14日第六届[中国模式识别与计算机视觉大会](https://www.prcv2023.cn/2023prcv)在厦门举办。PRCV 2023由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办,厦门大学承办,是国内顶级的模式识别和计算机视觉领域学术盛会,CCF推荐会议(C类)。 本届会议主题为“相约鹭岛,启智未来”。会议旨在汇聚国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行,共同分享我国模式识别与计算机视觉领域的最新理论和技术成果。 PRCV2023共设5个大
94 0
|
6月前
|
传感器 vr&ar UED
三维视觉技术
三维视觉技术
|
4月前
|
机器学习/深度学习 算法 API
视觉智能平台如何识别图像的某个特征?
视觉智能平台如何识别图像的某个特征?
24 0
|
6月前
|
机器学习/深度学习 人工智能 算法
AI图生成技术:从随机噪声到逼真图像
在人工智能的快速发展中,图像生成是一个备受关注的研究领域。AI图生成技术通过训练深度神经网络来生成逼真的图像,为我们提供了许多有趣的应用场景,如风格转换、图像修复和虚拟现实等。本篇博客将介绍一种基于随机噪声的AI图生成技术,并探讨其背后的原理和应用。
156 1
|
9月前
|
人机交互
|
9月前
|
人工智能 安全 物联网
AI绘画——ChilloutMix模型(现实真人,实现写实逼真的图像)
AI绘画——ChilloutMix模型(现实真人,实现写实逼真的图像)
717 0
|
11月前
|
机器学习/深度学习 人工智能 文字识别
使用LabVIEW 实现物体识别、图像分割、文字识别、人脸识别等深度视觉
使用LabVIEW 实现物体识别、图像分割、文字识别、人脸识别等深度视觉
301 0
|
11月前
|
机器学习/深度学习 文字识别 自然语言处理
CCIG 2023 从视觉-语言模型到智能文档图像处理
最近,中国图像图形大会(CCIG 2023)在苏州成功结束。本次大会以“图像图形·向未来”为主题,由中国科学技术协会指导,中国图像图形学学会主办,苏州科技大学承办。