LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: LLM2CLIP 为多模态学习提供了一种新的范式,通过整合 LLM 的强大功能来增强 CLIP 模型。

在人工智能迅速发展的今天,多模态系统正成为推动视觉语言任务前沿发展的关键。CLIP(对比语言-图像预训练)作为其中的典范,通过将文本和视觉表示对齐到共享的特征空间,为图像-文本检索、分类和分割等任务带来了革命性突破。然而其文本编码器的局限性使其在处理复杂长文本和多语言任务时显得力不从心。

大型语言模型(LLM),如 GPT-4LLaMA,则展示了卓越的语言理解和生成能力。这种强大的语言能力能否与 CLIP 结合,解决其文本编码器的短板?微软团队提出的 LLM2CLIP 框架便是这一创新的成果。

该论文提出了一种创新的方法,通过将 LLM 强大的语言知识与 CLIP 的视觉能力相结合,显著提升多模态任务的性能。通过整合 LLM 和 CLIP,LLM2CLIP 解决了传统 CLIP 在文本理解、语言支持和任务泛化方面的瓶颈。

方法创新

字幕对比微调(Caption Contrastive Fine-tuning)

  • 核心问题:LLM 的原生文本特征缺乏区分性,难以直接用于多模态任务。
  • 创新点:通过监督对比损失函数,将同一图像的字幕作为正样本,将其他字幕作为负样本,从而显著增强 LLM 的文本编码能力。

冻结 LLM 梯度

  • 目的:保留 LLM 的开放世界知识,降低计算成本。
  • 方法:仅微调适配器和投影层,实现多模态对齐。

高效训练策略

  • 使用 LoRA 技术进行轻量级训练,在计算资源有限的情况下优化模型性能。
  • 预提取文本特征,减少推理阶段的计算负担。

开放世界知识的利用

  • LLM 的广泛训练语料使其能够处理复杂字幕,甚至支持多语言任务。

LLM2CLIP 的关键特性

  1. 增强文本理解:LLM2CLIP 能够处理超过 CLIP 原生限制的长文本和复杂描述。
  2. 跨语言支持:通过 LLM 的知识迁移,即使仅使用英语数据训练,仍可在中文等多语言任务中实现卓越表现。
  3. 高效计算:通过冻结梯度和轻量级适配器优化计算开销。

详细改进描述

处理长字幕和复杂文本: LLM 的更大的上下文窗口和更强的语言理解能力使得 LLM2CLIP 能够有效地处理长字幕和复杂文本,而无需像之前的工作那样进行文本截断或分段。

融入开放世界知识: LLM 在大规模文本语料库上进行预训练,因此拥有丰富的开放世界知识。LLM2CLIP 将这些知识融入到 CLIP 的视觉表示中,从而提高了其在各种下游任务中的性能。

跨语言能力: LLM2CLIP 的跨语言能力使其成为构建多语言多模态系统的强大工具,无需为每种语言单独训练模型。

高效训练: 通过冻结 LLM 的权重和预先提取文本特征,LLM2CLIP 的训练成本与微调原始 CLIP 模型相当。

实验结果

结果展示

LLM2CLIP 在多个基准测试中表现优异,在短文本、长文本以及跨语言任务中的性能显著提升,尤其在中文任务中,其表现甚至超越了专用中文数据集训练的模型。

  • 图像-文本检索 (I2T 和 T2I): 在 Flickr30k、COCO、ShareGPT4V、Urban-1k 和 DOCCI 等数据集上进行评估。
  • 跨语言图像-文本检索: 在 Flickr30K-CN 和 COCO-CN 数据集上进行评估。
  • 视觉问答 (VQA): 使用 LLaVA 1.5 框架进行评估。
  • 字幕检索准确率 (CRA): 用于评估文本模型区分字幕的能力。

如何开始使用 LLM2CLIP

以下是快速上手 LLM2CLIP 的完整代码教程:

1. 安装依赖环境

 pip install llm2vec
 git clone https://github.com/microsoft/LLM2CLIP.git && cd LLM2CLIP
 pip install -r requirements.txt

2. 配置 Jupyter Notebook

如果需要交互式环境:

 conda install -c conda-forge --override-channels notebook
 conda install -c conda-forge --override-channels ipywidgets -y jupyter notebook

3. 导入必要库

 fromPILimportImage
 fromtransformersimportAutoModel, AutoConfig, AutoTokenizer
 fromtransformersimportCLIPImageProcessor
 importtorch
 fromllm2vecimportLLM2Vec

4. 加载模型

 # 图像处理器
 processor=CLIPImageProcessor.from_pretrained("openai/clip-vit-large-patch14-336")

 # 加载 CLIP 模型
 model_name_or_path="microsoft/LLM2CLIP-Openai-L-14-336"
 model=AutoModel.from_pretrained(
     model_name_or_path,
     torch_dtype=torch.float16,
     trust_remote_code=True
 ).to('cuda').eval()

 # 加载微调后的 LLM 模型
 llm_model_name='microsoft/LLM2CLIP-Llama-3-8B-Instruct-CC-Finetuned'
 config=AutoConfig.from_pretrained(llm_model_name, trust_remote_code=True)
 llm_model=AutoModel.from_pretrained(llm_model_name, config=config, trust_remote_code=True)
 tokenizer=AutoTokenizer.from_pretrained(llm_model_name)

 # 初始化 LLM2Vec
 l2v=LLM2Vec(llm_model, tokenizer, pooling_mode="mean", max_length=512, doc_max_length=512)

5. 图像和字幕预处理

 captions= ["a diagram", "a dog", "horses"]
 image_path="path_to_image/horses.png"

 image=Image.open(image_path)
 input_pixels=processor(images=image, return_tensors="pt").pixel_values.to('cuda')

6. 提取特征并匹配字幕

 withtorch.no_grad(), torch.cuda.amp.autocast():
     image_features=model.get_image_features(input_pixels)
     text_features=l2v.encode(captions, convert_to_tensor=True).to('cuda')
     text_features=model.get_text_features(text_features)

     # 归一化特征
     image_features/=image_features.norm(dim=-1, keepdim=True)
     text_features/=text_features.norm(dim=-1, keepdim=True)

     # 计算匹配概率
     text_probs= (100.0*image_features@text_features.T).softmax(dim=-1)

 print("匹配结果:", text_probs)

输入图像为上面的马照片时,输出为:

 匹配结果: tensor([[3.425e-08, 1.0911e-06, 1.000e+00]], device='cuda:0')

这表明模型预测图像对应的字幕为“horses”,匹配概率为 100%。

再试一张更复杂的图片:

 captions = ["a sunset over a mountain range", "a group of people hiking on a trail", "a peaceful lake surrounded by trees"]
 image_path = "hiking_trail.jpg"

 image = Image.open(image_path)
 input_pixels = processor(images=image, return_tensors="pt").pixel_values.to('cuda')

 with torch.no_grad(), torch.cuda.amp.autocast():
     image_features = model.get_image_features(input_pixels)
     text_features = l2v.encode(captions, convert_to_tensor=True).to('cuda')
     text_features = model.get_text_features(text_features)

     image_features /= image_features.norm(dim=-1, keepdim=True)
     text_features /= text_features.norm(dim=-1, keepdim=True)

     text_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)

 print("Label probs:", text_probs)

输出为:

 匹配结果:: tensor([[1.122e-06, 9.998e-01, 1.243e-04]], device='cuda:0')

模型可以匹配出更准确的文字。

总结

LLM2CLIP 为多模态学习提供了一种新的范式,通过整合 LLM 的强大功能来增强 CLIP 模型。其在图像-文本检索、跨语言应用和长文本理解方面的出色性能,突显了其作为构建更强大、更通用的多模态系统的潜力。未来的研究可以进一步探索 LLM2CLIP 在更广泛的应用场景中的潜力,例如视频理解、多模态对话和具身智能。

论文地址:

https://avoid.overfit.cn/post/1ce67e3778c64bf2919b19dae39c4d71

目录
相关文章
|
10天前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
14天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
5天前
|
并行计算 前端开发 物联网
全网首发!真·从0到1!万字长文带你入门Qwen2.5-Coder——介绍、体验、本地部署及简单微调
2024年11月12日,阿里云通义大模型团队正式开源通义千问代码模型全系列,包括6款Qwen2.5-Coder模型,每个规模包含Base和Instruct两个版本。其中32B尺寸的旗舰代码模型在多项基准评测中取得开源最佳成绩,成为全球最强开源代码模型,多项关键能力超越GPT-4o。Qwen2.5-Coder具备强大、多样和实用等优点,通过持续训练,结合源代码、文本代码混合数据及合成数据,显著提升了代码生成、推理和修复等核心任务的性能。此外,该模型还支持多种编程语言,并在人类偏好对齐方面表现出色。本文为周周的奇妙编程原创,阿里云社区首发,未经同意不得转载。
|
10天前
|
人工智能 运维 双11
2024阿里云双十一云资源购买指南(纯客观,无广)
2024年双十一,阿里云推出多项重磅优惠,特别针对新迁入云的企业和初创公司提供丰厚补贴。其中,36元一年的轻量应用服务器、1.95元/小时的16核60GB A10卡以及1元购域名等产品尤为值得关注。这些产品不仅价格亲民,还提供了丰富的功能和服务,非常适合个人开发者、学生及中小企业快速上手和部署应用。
|
5天前
|
人工智能 自然语言处理 前端开发
用通义灵码,从 0 开始打造一个完整APP,无需编程经验就可以完成
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。本教程完全免费,而且为大家准备了 100 个降噪蓝牙耳机,送给前 100 个完成的粉丝。获奖的方式非常简单,只要你跟着教程完成第一课的内容就能获得。
|
21天前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
3945 4
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
10天前
|
算法 安全 网络安全
阿里云SSL证书双11精选,WoSign SSL国产证书优惠
2024阿里云11.11金秋云创季活动火热进行中,活动月期间(2024年11月01日至11月30日)通过折扣、叠加优惠券等多种方式,阿里云WoSign SSL证书实现优惠价格新低,DV SSL证书220元/年起,助力中小企业轻松实现HTTPS加密,保障数据传输安全。
531 3
阿里云SSL证书双11精选,WoSign SSL国产证书优惠
|
9天前
|
数据采集 人工智能 API
Qwen2.5-Coder深夜开源炸场,Prompt编程的时代来了!
通义千问团队开源「强大」、「多样」、「实用」的 Qwen2.5-Coder 全系列,致力于持续推动 Open Code LLMs 的发展。
|
16天前
|
安全 数据建模 网络安全
2024阿里云双11,WoSign SSL证书优惠券使用攻略
2024阿里云“11.11金秋云创季”活动主会场,阿里云用户通过完成个人或企业实名认证,可以领取不同额度的满减优惠券,叠加折扣优惠。用户购买WoSign SSL证书,如何叠加才能更加优惠呢?
995 3
|
14天前
|
机器学习/深度学习 存储 人工智能
白话文讲解大模型| Attention is all you need
本文档旨在详细阐述当前主流的大模型技术架构如Transformer架构。我们将从技术概述、架构介绍到具体模型实现等多个角度进行讲解。通过本文档,我们期望为读者提供一个全面的理解,帮助大家掌握大模型的工作原理,增强与客户沟通的技术基础。本文档适合对大模型感兴趣的人员阅读。
448 18
白话文讲解大模型| Attention is all you need