多模态-阿里云开发者社区-阿里云

开发者社区> ModelScope模型即服务> 多模态

多模态

关注

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

0
今日
89
内容
0
活动
211
关注
|
10天前
|
测试技术
|

Vript:最为详细的视频文本数据集,每个视频片段平均超过140词标注 | 多模态大模型,文生视频

[Vript](https://github.com/mutonix/Vript) 是一个大规模的细粒度视频文本数据集,包含12K个高分辨率视频和400k+片段,以视频脚本形式进行密集注释,每个场景平均有145个单词的标题。除了视觉信息,还转录了画外音,提供额外背景。新发布的Vript-Bench基准包括三个挑战性任务:Vript-CAP(详细视频描述)、Vript-RR(视频推理)和Vript-ERO(事件时序推理),旨在推动视频理解的发展。

24 1
|
2月前
|
存储 开发工具
|

怎么修改model scope的默认存储位置

53 1
|
5月前
|
人工智能
|

aigc

aigc

96 0

请问有没有能撰写期刊学术论文的模型和数据?

请问有没有能撰写期刊学术论文的模型和数据?

79 0
|
8月前
|
测试技术 芯片 索引
|

中文竞技场大模型评测体验报告

本文对大型语言模型进行综合评测,从代码相关性、人类价值观和知识常识三个角度展开分析。每个领域提出了3个问题,以测试模型的效果。

270 0
|
10月前
|

ONE-PEACE:探索通往无限模态的通用表征模型

王鹏 达摩院高级算法工程师

2452 0
|
11月前
|
存储 自然语言处理
|

文本生成视频大模型的存储路径

278 0
|
11月前
|
存储
|

关于存储路径

300 1
|
机器学习/深度学习 自然语言处理 计算机视觉
|

图文匹配:Clip模型介绍

864 0
|
人工智能 自然语言处理 达摩院
|

中文CLIP模型卷土重来,这次加量不加价!

665 1
|
机器学习/深度学习 人工智能 自然语言处理
|

35张图,直观理解Stable Diffusion

938 0
我要发布