开发者社区 > ModelScope模型即服务 > 多模态 > 正文

多模态模型的发展趋势:迄今为止最先进的模型,跨模态 GAN,多模态 Transformer

多模态模型是迄今为止最先进的,因为它们可以接受多种不同的输入方式(例如语言、图像、语音、视频) ,并且在某些情况下产生不同的输出模态。

展开
收起
ModelScope运营小助手 2022-10-29 11:09:12 1824 0
1 条回答
写回答
取消 提交回答
  • 推荐一篇论文,感兴趣可以看看 Vision-Language Pre-training: Basics, Recent Advances, and Future Trends 地址:https://arxiv.org/pdf/2210.09263v1.pdf

    2022-11-04 10:22:24
    赞同 展开评论 打赏

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

相关电子书

更多
AI模型训练解决方案V1.4 立即下载
基于视觉推理的视频理解 立即下载
通义万相:视觉生成大模型的进化与应用 立即下载