开发者社区> ModelScope模型即服务> 多模态

多模态

关注

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

0
今日
97
内容
0
活动
217
关注
|
24天前
|
人工智能
|

多模态AI单词助记模型体验

一文带你了解多模态AI单词助记模型的优与劣

169 1
|
2月前
|
机器学习/深度学习 算法 算法框架/工具
|

《YOLOv5原创自研》专栏介绍 & CSDN独家改进创新实战&专栏目录

YOLOv5原创自研,助力创新

67 1
|
2月前
|
机器学习/深度学习 编解码 人工智能
|

一种基于YOLOv8改进的高精度表面缺陷检测网络, NEU-DET和GC10-DET涨点明显(原创自研)

【7月更文挑战第3天】一种基于YOLOv8改进的高精度表面缺陷检测, 在NEU-DET和GC10-DET任务中涨点明显;

86 1
|
4月前
|
测试技术
|

Vript:最为详细的视频文本数据集,每个视频片段平均超过140词标注 | 多模态大模型,文生视频

[Vript](https://github.com/mutonix/Vript) 是一个大规模的细粒度视频文本数据集,包含12K个高分辨率视频和400k+片段,以视频脚本形式进行密集注释,每个场景平均有145个单词的标题。除了视觉信息,还转录了画外音,提供额外背景。新发布的Vript-Bench基准包括三个挑战性任务:Vript-CAP(详细视频描述)、Vript-RR(视频推理)和Vript-ERO(事件时序推理),旨在推动视频理解的发展。

104 1
|
10月前
|
人工智能
|

aigc

aigc

174 0

请问有没有能撰写期刊学术论文的模型和数据?

请问有没有能撰写期刊学术论文的模型和数据?

97 0
|
测试技术 芯片 索引
|

中文竞技场大模型评测体验报告

本文对大型语言模型进行综合评测,从代码相关性、人类价值观和知识常识三个角度展开分析。每个领域提出了3个问题,以测试模型的效果。

311 0
|
搜索推荐 流计算 索引
|

图文检索

图文检索简介

2469 0

视觉问答

多模态视觉问答

1539 0
我要发布