Transformer基础结构

简介: Transformer是Vaswani等人于2017年提出的基于注意力机制的神经网络,采用编码器-解码器架构,核心创新包括自注意力、位置编码、残差连接与层归一化,支持并行计算并有效捕捉长距离依赖,广泛应用于自然语言处理任务。

🎯 概述

Transformer是一种基于注意力机制的神经网络架构,由Vaswani等人在2017年提出,彻底改变了自然语言处理领域。

🏗️ 核心组件

1️⃣ 编码器-解码器架构

  • 编码器:将输入序列转换为隐藏表示
  • 解码器:基于编码器输出生成目标序列

2️⃣ 关键创新

  • 自注意力机制:并行处理序列,捕获长距离依赖
  • 位置编码:为模型提供序列位置信息
  • 残差连接:缓解深层网络训练问题
  • 层归一化:稳定训练过程

📋 架构详解

编码器结构

每个编码器层包含:

  1. 多头自注意力:计算输入序列内部关系
  2. 前馈神经网络:非线性变换
  3. 残差连接和层归一化

解码器结构

每个解码器层包含:

  1. 掩码多头自注意力:防止信息泄露
  2. 编码器-解码器注意力:关注输入序列
  3. 前馈神经网络
  4. 残差连接和层归一化

🔍 数学原理

缩放点积注意力

多头注意力

其中

🚀 代码示例

import torch
import torch.nn as nn
class TransformerBlock(nn.Module):
    def __init__(self, d_model, n_heads, d_ff, dropout=0.1):
        super().__init__()
        self.attention = nn.MultiheadAttention(d_model, n_heads)
        self.feed_forward = nn.Sequential(
            nn.Linear(d_model, d_ff),
            nn.ReLU(),
            nn.Linear(d_ff, d_model)
        )
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        self.dropout = nn.Dropout(dropout)
    
    def forward(self, x, mask=None):
        # 自注意力 + 残差连接
        attn_output, _ = self.attention(x, x, x, attn_mask=mask)
        x = self.norm1(x + self.dropout(attn_output))
        
        # 前馈网络 + 残差连接
        ff_output = self.feed_forward(x)
        x = self.norm2(x + self.dropout(ff_output))
        
        return x


🎯 面试重点

  1. 为什么使用多头注意力?
  2. 位置编码的作用是什么?
  3. 残差连接和层归一化的作用?
  4. Transformer相比RNN的优势?
目录
相关文章
|
1月前
|
人工智能 运维 监控
进阶指南:BrowserUse + AgentRun Sandbox 最佳实践
本文将深入讲解 BrowserUse 框架集成、提供类 Manus Agent 的代码示例、Sandbox 高级生命周期管理、性能优化与生产部署策略。涵盖连接池设计、安全控制、可观测性建设及成本优化方案,助力构建高效、稳定、可扩展的 AI 浏览器自动化系统。
474 47
|
1月前
|
人工智能 安全 前端开发
老金发现个4277星的Claude Code企业神器,看完我直接跪了
老金拆解GitHub高星项目,教你用Claude Code打造自动化开发系统:Skills规范代码、Agents智能审查、Commands一键操作、Hooks自动触发、GitHub Actions定时巡检、MCP集成外部工具。4277星实战验证,企业级AI编程提效方案,文末附免费开源知识库。
647 12
|
7天前
|
数据采集 人工智能 达摩院
达摩院开源RynnBrain:首个支持移动操作的具身大脑基础模型
达摩院发布首个可移动操作的具身基础模型RynnBrain,首创时空记忆与物理空间推理能力,支持视频/图像/文本多模态输入及区域、轨迹等具身输出。开源MOE架构RynnBrain-30B-A3B(仅3B激活参数),在16项基准全面SOTA,并推出全新评测集RynnBrain-Bench。
121 8
|
6天前
|
人工智能 文字识别 物联网
ModelScope魔搭社区发布月报 -- 26年2月
临近年关,ModelScope迎来春节模型发布潮:Qwen3、GLM-4.7、MiniMax M2.1等大模型密集上新;AIGC生图、语音合成、具身智能全面突破;OpenAPI、OAuth、Gallery等生态基建同步升级,加速AI开源普惠。(239字)
171 5
|
11天前
|
存储 人工智能 安全
2026年OpenClaw(原Clawdbot/Moltbot)一键部署与阿里云百炼API配置保姆级教程
在AI自动化技术飞速发展的2026年,OpenClaw凭借“零技术门槛、高自由度定制、全场景适配”的核心优势,成为个人、新手开发者及轻量团队搭建专属AI助手的首选工具。其前身为Clawdbot、Moltbot,历经品牌迭代与版本优化后,于2026年正式统一命名为OpenClaw,名称变更仅为规避品牌合规风险、凸显开源属性,核心功能、技术架构与使用体验均未改变,依旧保持着“自然语言指令+自主任务执行”的核心特色。
267 2
|
2月前
|
存储 SQL Apache
Flink + Fluss 实战: Delta Join 原理解析与操作指南
Flink Delta Join 通过复用源表数据替代本地状态,解决双流 Join 状态膨胀问题。结合 Fluss 流存储,实现高效双向 Lookup,显著降低资源消耗与 Checkpoint 时间,提升作业稳定性与恢复速度,已在阿里大规模落地。
321 25
Flink + Fluss 实战: Delta Join 原理解析与操作指南
|
1月前
|
自然语言处理 物联网 计算机视觉
从 Image-to-LoRA 到 In-Context Edit
阿里发布Qwen-Image-Edit-2511-ICEdit-LoRA模型,通过上下文内编辑技术,利用“编辑前后图像对”实现图像编辑能力迁移。该模型仅需少量样本即可训练,支持风格、光照、表情等复杂编辑,并可拓展至图像分割等视觉任务,未来将持续优化与应用探索。
364 6
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
模型训练篇|多阶段ToolRL打造更可靠的AI导购助手
芝麻租赁推出AI导购“租赁小不懂”,针对长周期、重决策租赁场景,首创“One-Model + Tool-Use”架构与两阶段强化学习,攻克需求难匹配、决策效率低、服务被动三大痛点,实现响应提速78%、推荐成功率提升14.93%,打造贴切、沉浸、信任的场景化租赁体验。(239字)
167 25
模型训练篇|多阶段ToolRL打造更可靠的AI导购助手
|
1月前
|
人工智能 自然语言处理 API
数据合成篇|多轮ToolUse数据合成打造更可靠的AI导购助手
本文提出一种面向租赁导购场景的工具调用(Tool Use)训练数据合成方案,以支付宝芝麻租赁助理“小不懂”为例,通过“导演-演员”式多智能体框架生成拟真多轮对话。结合话题路径引导与动态角色交互,实现高质量、可扩展的合成数据生产,并构建“数据飞轮”推动模型持续优化。实验表明,该方法显著提升模型在复杂任务中的工具调用准确率与多轮理解能力。
357 43
数据合成篇|多轮ToolUse数据合成打造更可靠的AI导购助手

热门文章

最新文章