热门
多模态模型是迄今为止最先进的,因为它们可以接受多种不同的输入方式(例如语言、图像、语音、视频) ,并且在某些情况下产生不同的输出模态。
推荐一篇论文,感兴趣可以看看 Vision-Language Pre-training: Basics, Recent Advances, and Future Trends 地址:https://arxiv.org/pdf/2210.09263v1.pdf
包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域