极智AI | 变形金刚大家族Transformer ViT CLIP BLIP BERT模型结构

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
简介: 大家好,我是极智视界,本文整理介绍一下 Transformer ViT CLIP BLIP BERT 模型结构。

大家好,我是极智视界,本文整理介绍一下 Transformer ViT CLIP BLIP BERT 模型结构。

这几个模型都跟 变形金刚 相关,Transformer 是最开始的,然后像 ViT、CLIP、BLIP、BERT 都会用到 Transformer Encoder 模块,其中 ViT、CLIP、BLIP 是多模态模型,BERT 是 NLP 大模型。


Transformer

Paper:《Attention Is All You Need》

  • encoder-decoder ==> 编码器 (6x) 一个词一个词往外蹦,解码器 (6x) 一次性看清整个句子;
  • Multi-Head Attention ==> 一次性关注全局,多通道类比卷积;
  • Masked Multi-Head Attention == > 在 t 时刻,掩盖 t 时刻以后的输入;
  • Feed Forward ==> MLP;


ViT

Paper:《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》

  • Patch + Position Embedding ==> 打成块 (步长 = 核长的卷积) + 位置编码 + 类别编码;
  • Transformer Encoder ==> 图像提特征 ;
  • MLP Head ==> 分类头
  • Multi-Head Attention ==> linear 实现;


CLIP

Paper:《Learning Transferable Visual Models From Natural Language Supervision 》

  • encoder-encoder ==> Image Encoder (Vit / Resnet),Text Encoder (transofer encoder);
  • Contrastive pre-training ==> 对比学习,自监督;
  • zero-shot == > 迁移学习;


BLIP

Paper:《BLIP: Bootstrapping Language-Image Pre-training for Unifified Vision-Language Understanding and Generation 》

  • MED ==> Image Encoder (ViT),Text Encoder (BERT),Image-grounded Text encoder (变种BERT),Image-grounded Text decoder (变种BERT);
  • Image Encoder (ViT) ==> 视觉图像特征提取;
  • Text Encoder (BERT) ==> ITC (Image-Text Contrastive Loss),对齐 图像-文本 特征空间;
  • Image-grounded Text encoder (变种BERT) ==> 于 Bi Self-Att 和 Feed Forward 之间插入 Cross Attention (CA) 模块,以引入视觉特征, ITM (Image-Text Matching Loss),用来预测 图像-文本对 是 正匹配 还是 负匹配;
  • Image-grounded Text decoder (变种BERT) ==> 将 Image-grounded Text Encoder 结构中的 Bi Self-Att 替换为 Causal Self-Att,LM (Language Modeling Loss) ,用来生成给定图像的文本描述;

  • Captioner ==> 字幕器,用于生成给定 web 图像的字幕;
  • Filter ==> 过滤器,用于去除噪声 图像-文本 对;


BERT

Paper:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

  • Input Embeddings ==> Token Embeddings,Segment Embeddings,Position Embeddings;
  • Masked LM ==> 完形填空,双向;GPT 单向;
  • Next Sentence Prediction (NSP) ==> 句子对;


好了,以上整理分享了 Transformer ViT CLIP BLIP BERT 的模型结构。希望我的分享能对你的学习有一点帮助。


logo_show.gif

相关文章
|
22天前
|
人工智能 搜索推荐
写歌词的技巧和方法:塑造完美歌词结构的艺术,妙笔生词AI智能写歌词软件
歌词是音乐的灵魂,其结构艺术至关重要。开头需引人入胜,主体部分无论是叙事还是抒情,都应层次分明、情感丰富,结尾则需升华或留白,给人以深刻印象。《妙笔生词智能写歌词软件》提供多种AI辅助功能,助你轻松创作完美歌词,成为音乐创作的得力助手。
|
28天前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
77 2
|
22天前
|
人工智能
巧妙构建歌词结构:写歌词的技巧和方法之关键,妙笔生词AI智能写歌词软件
在音乐世界里,歌词是灵魂的载体,构建其结构至关重要。优秀的歌词需有引人入胜的开头、条理清晰且富变化的主体,以及深刻难忘的结尾。《妙笔生词智能写歌词软件》提供多种功能,帮助创作者克服结构难题,激发灵感,助你写出打动人心的歌词,开启音乐创作的新篇章。
|
22天前
|
人工智能
歌词结构的巧妙安排:写歌词的方法与技巧解析,妙笔生词AI智能写歌词软件
歌词创作是一门艺术,关键在于巧妙的结构安排。开头需迅速吸引听众,主体部分要坚实且富有逻辑,结尾则应留下深刻印象。《妙笔生词智能写歌词软件》提供多种 AI 功能,帮助创作者找到灵感,优化歌词结构,写出打动人心的作品。
|
22天前
|
人工智能
歌词结构的艺术:写歌词的技巧和方法深度剖析,妙笔生词AI智能写歌词软件
歌词是音乐的灵魂伴侣,其结构蕴含独特艺术魅力。掌握歌词结构技巧是创作者成功的关键。开头需迅速吸引听众,主体部分通过叙事、抒情或对话形式展开,结尾则点睛收尾。创作时可借助《妙笔生词智能写歌词软件》,利用 AI 功能优化歌词,提供丰富模板和案例,助力灵感涌现,轻松掌握歌词结构艺术。
|
22天前
|
人工智能
写歌词的技巧和方法:打造完美歌词结构,妙笔生词AI智能写歌词软件
写歌词的技巧包括:开头吸引人,主体逻辑清晰,结尾画龙点睛。使用《妙笔生词智能写歌词软件》的AI功能,如智能写词、押韵优化等,可助你克服创作瓶颈,打造完美歌词结构,适用于民谣、摇滚、流行等多种风格。
|
20天前
|
人工智能
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。
39 4
|
22天前
|
人工智能
写歌词的技巧和方法:构建独特歌词结构的策略,妙笔生词AI智能写歌词软件
歌词创作如同搭建艺术殿堂,独特的歌词结构是其基石。掌握构建策略,让你的歌词脱颖而出。开头营造神秘氛围或出人意料的情感,主体部分采用倒叙、插叙或融合矛盾情感,结尾带来情感反转或深邃思考。《妙笔生词智能写歌词软件》提供 AI 智能写词、押韵优化等功能,助你轻松获取灵感,打造独特歌词结构。
|
22天前
|
人工智能
精通歌词结构技巧:写歌词的方法与实践,妙笔生词AI智能写歌词软件
歌词创作是音乐的灵魂,掌握其结构技巧至关重要。开头需迅速吸引听众,主体部分需结构清晰、情感丰富,结尾则要余韵悠长。无论是叙事还是抒情,妙笔生词智能写歌词软件都能助你一臂之力,提供AI智能创作、优化及解析等多功能支持,助你轻松驾驭歌词创作。
|
22天前
|
人工智能
如何布局歌词结构:写歌词的技巧大公开,妙笔生词AI智能写歌词软件
在歌词创作中,结构布局如同建筑的骨架,决定歌词的稳固与美感。本文揭示了歌词结构布局的奥秘,从吸引人的开头、核心的中间部分到点睛的结尾,帮助你写出动人歌词。此外,推荐使用《妙笔生词智能写歌词软件》,其多种 AI 功能可助你一臂之力。

热门文章

最新文章