Transformer基础结构

简介: Transformer由Vaswani等人于2017年提出,基于自注意力机制,摒弃传统循环结构,实现并行化处理,显著提升长距离依赖建模能力。其核心包括编码器-解码器架构、多头注意力、位置编码、残差连接与层归一化,广泛应用于NLP及多模态任务,是当前大模型的基础架构。(238字)

概述
Transformer是一种基于注意力机制的神经网络架构,由Vaswani等人在2017年提出,彻底改变了自然语言处理领域。
🏗️ 核心组件
1️⃣ 编码器-解码器架构

编码器:将输入序列转换为隐藏表示

解码器:基于编码器输出生成目标序列
2️⃣ 关键创新

自注意力机制:并行处理序列,捕获长距离依赖

位置编码:为模型提供序列位置信息

残差连接:缓解深层网络训练问题

层归一化:稳定训练过程
📋 架构详解
编码器结构
每个编码器层包含:
1
多头自注意力:计算输入序列内部关系
2
前馈神经网络:非线性变换
3
残差连接和层归一化
解码器结构
每个解码器层包含:
1
掩码多头自注意力:防止信息泄露
2
编码器-解码器注意力:关注输入序列
3
前馈神经网络
4
残差连接和层归一化
🔍 数学原理
缩放点积注意力
Attention(Q,K,V)=softmax(
d
k

QK
T


)V

多头注意力
MultiHead(Q,K,V)=Concat(head
1

,...,head
h

)W
O

其中
head
i

=Attention(QW
i
Q

,KW
i
K

,VW
i
V

)

🚀 代码示例
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
import torch
import torch.nn as nn

class TransformerBlock(nn.Module):
def init(self, d_model, n_heads, d_ff, dropout=0.1):
super().init()
self.attention = nn.MultiheadAttention(d_model, n_heads)
self.feed_forward = nn.Sequential(
nn.Linear(d_model, d_ff),
nn.ReLU(),
nn.Linear(d_ff, d_model)
)
self.norm1 = nn.LayerNorm(d_model)
self.norm2 = nn.LayerNorm(d_model)
self.dropout = nn.Dropout(dropout)

def forward(self, x, mask=None):
    # 自注意力 + 残差连接
    attn_output, _ = self.attention(x, x, x, attn_mask=mask)
    x = self.norm1(x + self.dropout(attn_output))

    # 前馈网络 + 残差连接
    ff_output = self.feed_forward(x)
    x = self.norm2(x + self.dropout(ff_output))

    return x

📚 深入阅读

原始论文:Attention Is All You Need

分词器详解

注意力机制详解
🎯 面试重点
1
为什么使用多头注意力?
2
位置编码的作用是什么?
3
残差连接和层归一化的作用?
4
Transformer相比RNN的优势?

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
Transformer:Attention机制、前馈神经网络、编码器与解码器
Transformer:Attention机制、前馈神经网络、编码器与解码器
1068 1
|
Java Spring 容器
Spring系列文章:Bean的获取⽅式
Spring系列文章:Bean的获取⽅式
535 0
|
4月前
|
人工智能 安全 网络协议
2026版OpenClaw Skills深度实战指南:浏览器与邮件技能全解析+阿里云部署速成
如果说OpenClaw(原Clawdbot,曾用名Moltbot)与大模型的组合是打造智能AI助理的“大脑”,那么Skills就是赋予它行动能力的“双手”。作为阿里云生态下开源AI自动化代理工具的核心扩展模块,Skills通过标准化功能封装,让AI助手突破“只会说不会做”的局限,自主完成网页浏览、信息检索、邮件管理等实操任务。2026年最新版OpenClaw已默认集成浏览器操作插件agent-browser v0.2.0,同时支持从Clawhub技能库扩展超3000款实用功能,搭配阿里云云端部署的高稳定性,能快速打造7×24小时运行的自动化AI助理。
4253 2
|
5月前
|
数据采集 机器学习/深度学习 人工智能
构建AI智能体:八十五、数据预处理对训练效果的影响:质量过滤、敏感内容过滤与数据去重
数据预处理是大模型训练的核心环节,通过质量过滤、敏感内容过滤和数据去重三重机制,显著提升模型性能。它不仅提高训练效率2-3倍,更在准确性、安全性和泛化能力上带来30%以上提升,决定了AI系统的性能上限。
503 8
|
5月前
|
人工智能 数据可视化 物联网
大模型微调技术入门:从核心概念到实战落地全攻略
本课程系统讲解大模型微调核心技术,涵盖LoRA、QLoRA等高效方法,结合ComfyUI与主流工具实战,从数据准备到模型部署全流程落地,助力开发者低成本定制专属AI模型。
|
5月前
|
存储 人工智能 安全
AI 智能体开发的标准化流程
AI智能体开发已进入闭环治理新阶段,涵盖需求拆解、架构设计、工作流编排到多智能体协同。从角色定义到持续迭代,强调“小步快跑、低代码先行”,助力企业高效落地AI应用。#AI智能体 #AI应用 #软件外包公司
|
人工智能 JSON 自然语言处理
Function AI 工作流发布:以 AI 重塑企业流程自动化
本文介绍了基于函数计算 FC 打造的全新 Function AI 工作流服务,该服务结合 AI 技术与流程自动化,实现从传统流程自动化到智能流程自动化的跨越。文章通过内容营销素材生成、内容安全审核和泛企业 VOC 挖掘三个具体场景,展示了 Function AI 工作流的设计、配置及调试过程,并对比了其与传统流程的优势。Function AI 工作流具备可视化、智能性和可扩展性,成为企业智能化转型的重要基础设施,助力企业提升效率、降低成本并增强敏捷响应能力。
1025 28
|
XML 数据挖掘 数据格式
|
数据安全/隐私保护 Android开发 Windows
2025 年三款免费高清无水印视频录制工具推荐合集
本文介绍了三款免费高清录屏软件:EVCapture、Bandicam 和 屏幕录像机(oCam)。EVCapture 功能强大,支持视频录制与直播,提供分屏录制、实时按键显示等;Bandicam 适合游戏录屏,可自定义录制区域并添加Logo,还支持音频和摄像头设置;oCam 小巧灵活,支持多种视频格式(如GIF、MP4等)及音频、截图功能。三者均无水印,画质清晰,满足不同录屏需求。资源地址已提供,可供下载体验。
11477 0
|
人工智能 搜索推荐 API
开源2.0|从事视频剪辑的“熬者们”,自动化剪辑工具 FunClip请收好
开源2.0|从事视频剪辑的“熬者们”,自动化剪辑工具 FunClip请收好
开源2.0|从事视频剪辑的“熬者们”,自动化剪辑工具 FunClip请收好