极智AI | 变形金刚大家族Transformer ViT CLIP BLIP BERT模型结构-阿里云开发者社区

极智AI | 变形金刚大家族Transformer ViT CLIP BLIP BERT模型结构

2023-12-19 169

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大家好，我是极智视界，本文整理介绍一下 Transformer ViT CLIP BLIP BERT 模型结构。

大家好，我是极智视界，本文整理介绍一下 Transformer ViT CLIP BLIP BERT 模型结构。

这几个模型都跟变形金刚相关，Transformer 是最开始的，然后像 ViT、CLIP、BLIP、BERT 都会用到 Transformer Encoder 模块，其中 ViT、CLIP、BLIP 是多模态模型，BERT 是 NLP 大模型。

Transformer

Paper：《Attention Is All You Need》

Paper：《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》

Paper：《Learning Transferable Visual Models From Natural Language Supervision 》

encoder-encoder ==> Image Encoder (Vit / Resnet)，Text Encoder (transofer encoder)；
Contrastive pre-training ==> 对比学习，自监督；
zero-shot == > 迁移学习；

Paper：《BLIP: Bootstrapping Language-Image Pre-training for Unifified Vision-Language Understanding and Generation 》

MED ==> Image Encoder (ViT)，Text Encoder (BERT)，Image-grounded Text encoder (变种BERT)，Image-grounded Text decoder (变种BERT)；
Image Encoder (ViT) ==> 视觉图像特征提取；
Text Encoder (BERT) ==> ITC (Image-Text Contrastive Loss)，对齐图像-文本特征空间；
Image-grounded Text encoder (变种BERT) ==> 于 Bi Self-Att 和 Feed Forward 之间插入 Cross Attention (CA) 模块，以引入视觉特征， ITM (Image-Text Matching Loss)，用来预测图像-文本对是正匹配还是负匹配；
Image-grounded Text decoder (变种BERT) ==> 将 Image-grounded Text Encoder 结构中的 Bi Self-Att 替换为 Causal Self-Att，LM (Language Modeling Loss) ，用来生成给定图像的文本描述；