前言
机器之心 & ArXiv Weekly 参与:楚航、罗若天、梅洪源
MiniGPT-4:Enhancing Vision-language Understanding with Advanced Large Language Models
- 作者:朱德尧、陈军、沈晓倩、李祥、Mohamed H. Elhoseiny
- 论文地址:https://minigpt-4.github.io/
正文
摘要:来自阿卜杜拉国王科技大学(KAUST)的团队上手开发了一个 GPT-4 的类似产品 ——MiniGPT-4。MiniGPT-4 展示了许多类似于 GPT-4 的能力,例如生成详细的图像描述并从手写草稿创建网站。此外,作者还观察到 MiniGPT-4 的其他新兴能力,包括根据给定的图像创作故事和诗歌,提供解决图像中显示的问题的解决方案,根据食品照片教用户如何烹饪等。
MiniGPT-4 使用一个投影层将一个冻结的视觉编码器和一个冻结的 LLM(Vicuna)对齐。MiniGPT-4 由一个预训练的 ViT 和 Q-Former 视觉编码器、一个单独的线性投影层和一个先进的 Vicuna 大型语言模型组成。MiniGPT-4 只需要训练线性层,用来将视觉特征与 Vicuna 对齐。
示例展示:从草图创建网站。