开发者社区> ModelScope模型即服务> 多模态

多模态

关注

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

0
今日
306
内容
0
活动
250
关注
|
12月前
|
机器学习/深度学习 人工智能 语音技术
|

Fugatto:英伟达推出的多功能AI音频生成模型

Fugatto是由英伟达推出的多功能AI音频生成模型,能够根据文本提示生成音频或视频,并修改现有音频文件。该模型基于增强型的Transformer模型,支持复杂的组合指令,具有强大的音频生成与转换能力,广泛应用于音乐创作、声音设计、语音合成等领域。

331 1
|
8月前
|
人工智能 搜索推荐 开发者
|

Kiss3DGen:基于图像扩散模型的3D资产生成框架

Kiss3DGen是一个创新的3D资产生成框架,通过重新利用预训练的2D图像扩散模型,高效生成、编辑和增强3D对象,支持文本到3D、图像到3D等多种生成任务。

236 5
|
10月前
|
机器学习/深度学习 人工智能 监控
|

Uni-AdaFocus:清华大学开源高效视频理解框架,根据视频内容动态分配计算资源

Uni-AdaFocus 是清华大学推出的高效视频理解框架,通过自适应聚焦机制动态调整计算资源分配,显著提升视频处理效率。

166 6
|
11月前
|
人工智能 数据处理 语音技术
|

LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成

LatentLM是由微软研究院和清华大学联合推出的多模态生成模型,能够统一处理离散和连续数据,具备高性能图像生成、多模态大型语言模型集成等功能,展现出卓越的多模态任务处理能力。

291 29
|
11月前
|
人工智能
|

GenMAC:港大、清华联合微软推出文本到视频生成的多代理协作框架

GenMAC是由香港大学、清华大学和微软研究院联合推出的文本到视频生成的多代理协作框架。该框架通过任务分解、迭代循环和多代理协作,解决了复杂场景生成问题,显著提高了视频生成的准确性和文本对齐度。

133 5
我要发布