极智AI | 变形金刚大家族Transformer ViT CLIP BLIP BERT模型结构

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
简介: 大家好,我是极智视界,本文整理介绍一下 Transformer ViT CLIP BLIP BERT 模型结构。

大家好,我是极智视界,本文整理介绍一下 Transformer ViT CLIP BLIP BERT 模型结构。

这几个模型都跟 变形金刚 相关,Transformer 是最开始的,然后像 ViT、CLIP、BLIP、BERT 都会用到 Transformer Encoder 模块,其中 ViT、CLIP、BLIP 是多模态模型,BERT 是 NLP 大模型。


Transformer

Paper:《Attention Is All You Need》

  • encoder-decoder ==> 编码器 (6x) 一个词一个词往外蹦,解码器 (6x) 一次性看清整个句子;
  • Multi-Head Attention ==> 一次性关注全局,多通道类比卷积;
  • Masked Multi-Head Attention == > 在 t 时刻,掩盖 t 时刻以后的输入;
  • Feed Forward ==> MLP;


ViT

Paper:《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》

  • Patch + Position Embedding ==> 打成块 (步长 = 核长的卷积) + 位置编码 + 类别编码;
  • Transformer Encoder ==> 图像提特征 ;
  • MLP Head ==> 分类头
  • Multi-Head Attention ==> linear 实现;


CLIP

Paper:《Learning Transferable Visual Models From Natural Language Supervision 》

  • encoder-encoder ==> Image Encoder (Vit / Resnet),Text Encoder (transofer encoder);
  • Contrastive pre-training ==> 对比学习,自监督;
  • zero-shot == > 迁移学习;


BLIP

Paper:《BLIP: Bootstrapping Language-Image Pre-training for Unifified Vision-Language Understanding and Generation 》

  • MED ==> Image Encoder (ViT),Text Encoder (BERT),Image-grounded Text encoder (变种BERT),Image-grounded Text decoder (变种BERT);
  • Image Encoder (ViT) ==> 视觉图像特征提取;
  • Text Encoder (BERT) ==> ITC (Image-Text Contrastive Loss),对齐 图像-文本 特征空间;
  • Image-grounded Text encoder (变种BERT) ==> 于 Bi Self-Att 和 Feed Forward 之间插入 Cross Attention (CA) 模块,以引入视觉特征, ITM (Image-Text Matching Loss),用来预测 图像-文本对 是 正匹配 还是 负匹配;
  • Image-grounded Text decoder (变种BERT) ==> 将 Image-grounded Text Encoder 结构中的 Bi Self-Att 替换为 Causal Self-Att,LM (Language Modeling Loss) ,用来生成给定图像的文本描述;

  • Captioner ==> 字幕器,用于生成给定 web 图像的字幕;
  • Filter ==> 过滤器,用于去除噪声 图像-文本 对;


BERT

Paper:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

  • Input Embeddings ==> Token Embeddings,Segment Embeddings,Position Embeddings;
  • Masked LM ==> 完形填空,双向;GPT 单向;
  • Next Sentence Prediction (NSP) ==> 句子对;


好了,以上整理分享了 Transformer ViT CLIP BLIP BERT 的模型结构。希望我的分享能对你的学习有一点帮助。


logo_show.gif

相关文章
|
5天前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
2315 108
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
6天前
|
人工智能 物联网 开发者
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
Oumi 是一个完全开源的 AI 平台,支持从 1000 万到 4050 亿参数的模型训练,涵盖文本和多模态模型,提供零样板代码开发体验。
143 43
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
YuE:开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种语言和多种音乐风格
YuE 是香港科技大学和 M-A-P 联合开发的开源 AI 音乐生成模型,能够将歌词转化为完整的歌曲,支持多种音乐风格和多语言。
123 23
YuE:开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种语言和多种音乐风格
|
8天前
|
人工智能 编解码 语音技术
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。
109 21
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
|
1天前
|
机器学习/深度学习 人工智能 编解码
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。
46 17
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
|
8天前
|
机器学习/深度学习 人工智能 API
Aligner:自动修正AI的生成结果,北大推出残差修正模型对齐技术
介绍北大团队提出的 Aligner 模型对齐技术,通过学习对齐答案与未对齐答案之间的修正残差,提升大语言模型的性能。
67 28
|
19天前
|
机器学习/深度学习 人工智能 算法
Transformer打破三十年数学猜想!Meta研究者用AI给出反例,算法杀手攻克数学难题
《PatternBoost: Constructions in Mathematics with a Little Help from AI》提出了一种结合传统搜索算法和Transformer神经网络的PatternBoost算法,通过局部搜索和全局优化交替进行,成功应用于组合数学问题。该算法在图论中的Ramsey数研究中找到了更小的反例,推翻了一个30年的猜想,展示了AI在数学研究中的巨大潜力,但也面临可解释性和通用性的挑战。论文地址:https://arxiv.org/abs/2411.00566
62 13
|
26天前
|
人工智能 运维 物联网
云大使 X 函数计算 FC 专属活动上线!享返佣,一键打造 AI 应用
如今,AI 技术已经成为推动业务创新和增长的重要力量。但对于许多企业和开发者来说,如何高效、便捷地部署和管理 AI 应用仍然是一个挑战。阿里云函数计算 FC 以其免运维的特点,大大降低了 AI 应用部署的复杂性。用户无需担心底层资源的管理和运维问题,可以专注于应用的创新和开发,并且用户可以通过一键部署功能,迅速将 AI 大模型部署到云端,实现快速上线和迭代。函数计算目前推出了多种规格的云资源优惠套餐,用户可以根据实际需求灵活选择。
|
22天前
|
人工智能 算法 前端开发
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
175 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
|
8天前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
75 23
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人

热门文章

最新文章