开发者社区> ModelScope模型即服务> 多模态

多模态

关注

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

0
今日
98
内容
0
活动
218
关注
|
4月前
|
机器学习/深度学习 算法 算法框架/工具
|

《YOLOv5原创自研》专栏介绍 & CSDN独家改进创新实战&专栏目录

YOLOv5原创自研,助力创新

110 1
|
4月前
|
机器学习/深度学习 编解码 人工智能
|

一种基于YOLOv8改进的高精度表面缺陷检测网络, NEU-DET和GC10-DET涨点明显(原创自研)

【7月更文挑战第3天】一种基于YOLOv8改进的高精度表面缺陷检测, 在NEU-DET和GC10-DET任务中涨点明显;

141 1
|
6月前
|
测试技术
|

Vript:最为详细的视频文本数据集,每个视频片段平均超过140词标注 | 多模态大模型,文生视频

[Vript](https://github.com/mutonix/Vript) 是一个大规模的细粒度视频文本数据集,包含12K个高分辨率视频和400k+片段,以视频脚本形式进行密集注释,每个场景平均有145个单词的标题。除了视觉信息,还转录了画外音,提供额外背景。新发布的Vript-Bench基准包括三个挑战性任务:Vript-CAP(详细视频描述)、Vript-RR(视频推理)和Vript-ERO(事件时序推理),旨在推动视频理解的发展。

126 1
|
3月前
|
人工智能
|

多模态AI单词助记模型体验

一文带你了解多模态AI单词助记模型的优与劣

210 1
|
12月前
|
人工智能
|

aigc

aigc

190 0
|
9月前
|
存储 开发工具
|

怎么修改model scope的默认存储位置

164 1
我要发布