视觉问答

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 视觉问答

多模态视觉问答

【Task简介】

给定图片和文本问题作为输入,视觉问答模型会根据对于图片的文本问题,自动生成图片相应的文本答案

【说明视频】

image.png

点击链接查看视频:

https://www.yuque.com/modelscope/rdum8e/bdygo2?inner=AfNiv

【输入与输出】

input是一张图片和对应的文本问题,输出是模型自动生成的答案

image.png

【场景应用】

能够和机器自动进行各种类型的多模态问答,可以应用到各种人机交互的场景

【数据集链接】

数据集:https://modelscope.cn/datasets/modelscope/vqa_trial/summary

模型文件:https://modelscope.cn/models/damo/mplug_visual-question-answering_coco_large_en

相关文章
|
机器学习/深度学习 监控 自动驾驶
视觉智能详解
视觉智能详解
450 1
|
3月前
|
机器学习/深度学习 传感器 算法
深度学习之基于视觉的机器人导航
基于深度学习的视觉机器人导航是一种通过深度学习算法结合视觉感知系统(如摄像头、LiDAR等)实现机器人在复杂环境中的自主导航的技术。
148 5
|
4月前
视觉镜头俯角
【9月更文挑战第24天】
25 7
|
7月前
|
存储 API Android开发
视觉智能开放平台产品使用合集之生成式图像超分和图像超分有什么区别
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
人工智能 安全 物联网
AI绘画——ChilloutMix模型(现实真人,实现写实逼真的图像)
AI绘画——ChilloutMix模型(现实真人,实现写实逼真的图像)
898 0
|
机器学习/深度学习 文字识别 自然语言处理
CCIG 2023 从视觉-语言模型到智能文档图像处理
最近,中国图像图形大会(CCIG 2023)在苏州成功结束。本次大会以“图像图形·向未来”为主题,由中国科学技术协会指导,中国图像图形学学会主办,苏州科技大学承办。
|
人机交互
视觉问答
多模态视觉问答
视觉问答
|
人工智能 智能设计 UED
视觉生成技术(一)
阿里云高校计划视觉AI五天训练营教程 Day 1笔记。
2115 0
视觉生成技术(一)
|
人工智能 前端开发 Java
阿里云视觉AI 5天实践训练营-day05-人像分割系统
因时间关系,前端页面暂时未完成,所以本文暂时只展示后端页面。国庆做完前端会补上。
阿里云视觉AI 5天实践训练营-day05-人像分割系统
|
机器学习/深度学习 算法 固态存储

热门文章

最新文章