多模态-推荐-第5页-阿里云开发者社区-阿里云

开发者社区> ModelScope模型即服务> 多模态

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

今日

307

内容

活动

250

关注

来自： ModelScope模型即服务

文章

视频

问答

精华

蚝油菜花

12月前

机器学习/深度学习人工智能语音技术

博文

Fugatto：英伟达推出的多功能AI音频生成模型

Fugatto是由英伟达推出的多功能AI音频生成模型，能够根据文本提示生成音频或视频，并修改现有音频文件。该模型基于增强型的Transformer模型，支持复杂的组合指令，具有强大的音频生成与转换能力，广泛应用于音乐创作、声音设计、语音合成等领域。

331 1 1

蚝油菜花

8月前

人工智能搜索推荐开发者

博文

Kiss3DGen：基于图像扩散模型的3D资产生成框架

Kiss3DGen是一个创新的3D资产生成框架，通过重新利用预训练的2D图像扩散模型，高效生成、编辑和增强3D对象，支持文本到3D、图像到3D等多种生成任务。

236 5 5

蚝油菜花

10月前

机器学习/深度学习人工智能监控

博文

Uni-AdaFocus：清华大学开源高效视频理解框架，根据视频内容动态分配计算资源

Uni-AdaFocus 是清华大学推出的高效视频理解框架，通过自适应聚焦机制动态调整计算资源分配，显著提升视频处理效率。

166 6 6

蚝油菜花

11月前

人工智能数据处理语音技术

博文

LatentLM：微软联合清华大学推出的多模态生成模型，能够统一处理和生成图像、文本、音频和语音合成

LatentLM是由微软研究院和清华大学联合推出的多模态生成模型，能够统一处理离散和连续数据，具备高性能图像生成、多模态大型语言模型集成等功能，展现出卓越的多模态任务处理能力。

291 29 29

游客o67cpbhsatmu4

11月前

问答

在4卡4090（24G）服务器上利用modelscope离线部署Qwen2vl-Flux时报错

238 1 0

蚝油菜花

11月前

人工智能

博文

GenMAC：港大、清华联合微软推出文本到视频生成的多代理协作框架

GenMAC是由香港大学、清华大学和微软研究院联合推出的文本到视频生成的多代理协作框架。该框架通过任务分解、迭代循环和多代理协作，解决了复杂场景生成问题，显著提高了视频生成的准确性和文本对齐度。

133 5 5

你好！

登录掌握更多精彩内容

账号登录

我的内容

我的收藏

模型库

数据集

创空间

文档

更多版块

计算机视觉自然语言处理语音科学计算

活跃用户

数字人直播源码独立部署，数字人直播防封专业版，交互数字人源码独立部署，了解咨询V＋ zhibo175 ，领取数字人相关资料！

游客zbyde6evs4owe

我要发布

文章问答

多模态

最新

文章

视频

问答

推荐

精华

Fugatto：英伟达推出的多功能AI音频生成模型

Kiss3DGen：基于图像扩散模型的3D资产生成框架

Uni-AdaFocus：清华大学开源高效视频理解框架，根据视频内容动态分配计算资源

LatentLM：微软联合清华大学推出的多模态生成模型，能够统一处理和生成图像、文本、音频和语音合成

在4卡4090（24G）服务器上利用modelscope离线部署Qwen2vl-Flux时报错

GenMAC：港大、清华联合微软推出文本到视频生成的多代理协作框架

活跃用户