极智AI | 多模态新姿势 详解BLIP算法实现

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: 大家好,我是极智视界,本文详细介绍一下 BLIP 算法的设计与实现。

大家好,我是极智视界,本文详细介绍一下 BLIP 算法的设计与实现。

多模态一定不是一个新鲜的话语,随着 AI 的发展,也正成为一种趋势。 Vision-Language Pre-training (VLP) + Fine-tuning => Zero Shot / Few Shot 的模式是 快速 解决 多下游任务 的一个好的模式,VLP 是这个模式的开端,所以对于 VLP 的相关研究也很多。BLIP 是一个新的 VLP 架构,可以灵活、快速的应用到下游任务,如:图像-文本检索图像翻译、以及 VQA 等。

本文不止会介绍 BLIP 的原理,还会介绍 BLIP 的实现,包括代码。下面开始。

参考 Paper:《BLIP: Bootstrapping Language-Image Pre-training for Unifified Vision-Language Understanding and Generation》。


1 BLIP 算法原理

因为之前看过像 CLIP 这样的工作,所以在看完 BLIP 后,很自然的会进行一个对比。列一下一些对比:

(1) 模型方面

  • CLIP 采用了 image-encoder (ViT / ResNet) & text-encoder (transformer),然后直接拿 图片特征文本特征 做余弦相似度对比,得到结果;
  • BLIP 的模型结构看上图,BLIP 的做法要复杂挺多,会涉及四个结构:
  • Image Encoder (ViT) :首先进行图像特征的提取,这个前向过程相对较重;
  • Text Encoder (BERT) :这是一个标准的 BERT,这里用 ITC (Image-Text Contrastive Loss) 目标函数激活 Text Encoder 模块,目标是对齐 Image Encoder Transformer 和 Text Encoder Transformer 的特征空间;
  • Image-grounded Text Encoder (变种 BERT):在标准 BERT 的结构里,于 Bi Self-Att 和 Feed Forward 之间插入 Cross Attention (CA) 模块,以引入视觉特征。这里用 ITM (Image-Text Matching Loss) 目标函数激活,ITM 是一个二分类任务,用来预测 image-text pair 的 正匹配 还是 负匹配,目的是学习 image-text 的多模态表示,调整视觉和语言之间的细粒度对齐;
  • Image-grounded Text Decoder (变种 BERT): 将 Image-grounded Text Encoder 结构中的 Bi Self-Att 替换为 Causal Self-Att。这里用 Language Modeling Loss (LM) 目标函数激活,目标是生成给定图像的文本描述。

(2) 数据方面

  • CLIP 的数据来源于 Web 上爬来的 图像-文本对,所以数据集很容易扩充的很大,而且采用 对比学习 的方式,基本属于自监督了,不太需要做数据标注;
  • BLIP 改进了 CLIP 直接从 Web 取数据 噪声大 的缺点,提出了 Captioning and Filtering (CapFilt) 模块,这个模块就是用来 减小噪声丰富数据 的,主要包括两个模块:
  • Captioner 字幕器:一个用于生成给定 web 图像字幕的字幕器,字幕器是一个基于图像的文本解码器,用 LM 目标函数激活,对给定图像的文本进行解码;
  • Filter 过滤器:一个用于去除噪声 image-text pair 的过滤器,过滤器是一个基于图像的文本编码器,用 ITC 和 ITM 目标函数激活,通过判断 原始文本 / 生成文本 和 图像是否匹配,用以过滤噪声文本,提高文本语料库的质量;
  • 来看个 CapFilt 的示例,其中 Tw 表示 Web Text,Ts 表示 合成文本;绿色 文本被 filter 认可的,而 红色 文本是被 filter 拒绝的

当把 BLIP 和 CLIP 从 模型角度数据角度 方法进行对比分析后,其实 CLIP 大部分的原理也都讲完了,还有些如训练的方式 => 把图片随机裁剪到 224 x 224 进行预训练,然后提升到 384 x 384 进行 finetuning;prompt;parameter sharing;Nucleus Sampling / Beam Sampling 等技术就不多说了,这些大多是引用了其他工作的方法。

下面贴两个实验数据。

首先是 BLIP 与 COCO 和 Flickr30K 数据集上 SOTA 的 图像-文本 检索方法进行比较,如下:

然后是 BLIP Zero-shot 能力的展现:

从以上的实验数据可以看出,CLIP 的 能力 非常的优秀。

下面来看 CLIP 的实现。


2 BLIP 算法实现

首先下载工程:

git clone https://github.com/salesforce/BLIP.git

安装依赖:

pip install -i https://pypi.douban.com/simple \ 
timm==0.4.12 \
transformers==4.15.0 \
fairscale==0.4.4 \
pycocoevalcap 
# 或者直接一键安装
pip install -i https://pypi.douban.com/simple -r requirements.txt

接着咱们下载 预训练权重

# Download the weights in ./checkpoints beforehand for fast inference
wget https://storage.googleapis.com/sfr-vision-language-research/BLIP/models/model*_base_caption.pth
wget https://storage.googleapis.com/sfr-vision-language-research/BLIP/models/model*_vqa.pth
wget https://storage.googleapis.com/sfr-vision-language-research/BLIP/models/model_base_retrieval_coco.pth

咱们这里拿 Zero-shot video-text 检索来讲实现把,若你想进行 Zero-shot video-text 检索,可以这样:

# 1. Download MSRVTT dataset following the instructions from https://github.com/salesforce/ALPRO, and set 'video_root' accordingly in configs/retrieval_msrvtt.yaml.
# 2. Install decord with
pip install -i https://pypi.douban.com/simple decord
# 3. To perform zero-shot evaluation, run
python -m torch.distributed.run --nproc_per_node=8 eval_retrieval_video.py

接着我们看 eval_retrieval_video.py

## eval_retrieval_video.py
# 导入很多依赖
import .....
# 后处理不管它
def evaluation(model, data_loader, tokenizer, device, config):
  ...
def main(args, config):
    ...
    #### Dataset #### 
    print("Creating retrieval dataset")
    test_dataset = VideoDataset(config['video_root'],config['ann_root'],num_frm=config['num_frm_test'],
                                max_img_size=config['image_size'], frm_sampling_strategy='uniform')
    test_loader = DataLoader(
        test_dataset,
        batch_size=config['batch_size'],
        num_workers=4,
        pin_memory=True,
        drop_last=False,
        shuffle=False,
    )  
    # 主要讲构建 Model
    #### Model #### 
    print("Creating model")
    model = blip_retrieval(pretrained=config['pretrained'], image_size=config['image_size'], vit=config['vit'])
    model = model.to(device)   
    ...

来看 BLIP_Retrieval

## blip_retrieval.py
class BLIP_Retrieval(nn.Module):
    # init
    def __init__(self,                 
                 med_config = 'configs/med_config.json',  
                 image_size = 384,
                 vit = 'base',
                 vit_grad_ckpt = False,
                 vit_ckpt_layer = 0,                      
                 embed_dim = 256,     
                 queue_size = 57600,
                 momentum = 0.995,
                 negative_all_rank = False,
                 ):
       ...
    def forward(self, image, caption, alpha, idx):
        ...
        # Image 编码 ViT
        image_embeds = self.visual_encoder(image) 
        ...
        # Text 编码 BERT
        text_output = self.text_encoder(text.input_ids, attention_mask = text.attention_mask, return_dict = True, mode = 'text')            
        ...             
        # Text 编码 变种BERT 融入视觉特征 CA
        output_pos = self.text_encoder(encoder_input_ids,
                                       attention_mask = text.attention_mask,
                                       encoder_hidden_states = image_embeds,
                                       encoder_attention_mask = image_atts,      
                                       return_dict = True,
                                      )  
        ...

以上可以看到用 Vit/B 来构建了 Image transformer 模块,而用 configs/med_config.json 来配置 BERT 及其变种,可以看下 med_config.json

## configs/med_config.json
{
  "architectures": [
    "BertModel"
  ],
  "attention_probs_dropout_prob": 0.1,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "type_vocab_size": 2,
  "vocab_size": 30524,
  "encoder_width": 768,
  "add_cross_attention": true     # 控制是否加入 CA 结构
}

以上展示了 CLIP 模型的构建实现,如果你想玩,可以自己 clone 下工程去跑一跑。


好了,以上分享了 多模态新姿势 BLIP 的算法原理和实现。希望我的分享能对你的学习有一点帮助。


logo_show.gif

相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
"拥抱AI规模化浪潮:从数据到算法,解锁未来无限可能,你准备好迎接这场技术革命了吗?"
【10月更文挑战第14天】本文探讨了AI规模化的重要性和挑战,涵盖数据、算法、算力和应用场景等方面。通过使用Python和TensorFlow的示例代码,展示了如何训练并应用一个基本的AI模型进行图像分类,强调了AI规模化在各行业的广泛应用前景。
13 5
|
1月前
|
人工智能 JSON 数据格式
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
【9月更文挑战第6天】RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
【9月更文挑战第4天】赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
|
17天前
|
机器学习/深度学习 人工智能 开发框架
【AI系统】AI 学习方法与算法现状
在人工智能的历史长河中,我们见证了从规则驱动系统到现代机器学习模型的转变。AI的学习方法基于深度神经网络,通过前向传播、反向传播和梯度更新不断优化权重,实现从训练到推理的过程。当前,AI算法如CNN、RNN、GNN和GAN等在各自领域取得突破,推动技术进步的同时也带来了更大的挑战,要求算法工程师与系统设计师紧密合作,共同拓展AI技术的边界。
48 1
|
5天前
|
人工智能 算法 前端开发
无界批发零售定义及无界AI算法,打破传统壁垒,累积数据流量
“无界批发与零售”是一种结合了批发与零售的商业模式,通过后端逻辑、数据库设计和前端用户界面实现。该模式支持用户注册、登录、商品管理、订单处理、批发与零售功能,并根据用户行为计算信用等级,确保交易安全与高效。
|
5天前
|
人工智能 算法 JavaScript
无界SaaS与AI算力算法,链接裂变万企万商万物互联
本文介绍了一种基于无界SaaS与AI算力算法的商业模式的技术实现方案,涵盖前端、后端、数据库及AI算法等关键部分。通过React.js构建用户界面,Node.js与Express搭建后端服务,MongoDB存储数据,TensorFlow实现AI功能。提供了项目结构、代码示例及部署建议,强调了安全性、可扩展性和性能优化的重要性。
|
1月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
37 4
|
1月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
63 7
|
2月前
|
人工智能 文字识别 算法
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
X-AnyLabeling是一款强大的辅助标注工具,集成了AI推理引擎和丰富功能,为图像数据工程师提供一站式解决方案。它支持图像和视频文件的自动标注,提供了包括矩形框、多边形在内的七种标注样式,适应多样化的训练场景需求。X-AnyLabeling内置了多种SOTA级AI模型,如YOLO、SAM系列等,并支持GPU加速和多种数据集格式的导入导出,确保高效的数据处理。此外,它还具备良好的跨平台兼容性,可在多种操作系统上运行,并提供详尽的帮助文档和社区支持,帮助用户轻松上手并解决使用过程中遇到的问题。
165 2
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
|
2月前
|
机器学习/深度学习 人工智能 算法
AI入门必读:Java实现常见AI算法及实际应用,有两下子!
本文全面介绍了人工智能(AI)的基础知识、操作教程、算法实现及其在实际项目中的应用。首先,从AI的概念出发,解释了AI如何使机器具备学习、思考、决策和交流的能力,并列举了日常生活中的常见应用场景,如手机助手、推荐系统、自动驾驶等。接着,详细介绍了AI在提高效率、增强用户体验、促进技术创新和解决复杂问题等方面的显著作用,同时展望了AI的未来发展趋势,包括自我学习能力的提升、人机协作的增强、伦理法规的完善以及行业垂直化应用的拓展等...
169 3
AI入门必读:Java实现常见AI算法及实际应用,有两下子!