模型架构篇🏗️ 主流大模型结构

简介: 本文系统梳理主流大模型架构:Encoder-Decoder、Decoder-Only、Encoder-Only及Prefix-Decoder,解析GPT、LLaMA、BERT等代表模型特点与应用,并对比参数、上下文长度与优势场景,涵盖中英文大模型发展及面试核心要点。

🎯 架构分类

1️⃣ Encoder-Decoder架构

  • 代表模型:T5、BART
  • 特点:适合序列到序列任务
  • 应用:翻译、摘要、问答

2️⃣ Decoder-Only架构

  • 代表模型:GPT系列、LLaMA
  • 特点:自回归生成
  • 应用:文本生成、对话

3️⃣ Encoder-Only架构

  • 代表模型:BERT、RoBERTa
  • 特点:双向理解
  • 应用:分类、NER、阅读理解

4️⃣ Prefix-Decoder架构

  • 代表模型:GLM、U-PaLM
  • 特点:编码器+部分解码器
  • 应用:兼顾理解和生成

🤖 主流模型详解

GPT系列演进

模型

参数量

特点

发布时间

GPT-1

117M

无监督预训练

2018

GPT-2

1.5B

零样本能力

2019

GPT-3

175B

少样本学习

2020

GPT-4

~1.7T

多模态

2023

LLaMA系列

  • LLaMA 1:开源基础模型
  • LLaMA 2:商业友好许可
  • LLaMA 3:最强开源模型

中文大模型

  • Qwen:阿里巴巴开源
  • DeepSeek:深度求索
  • Kimi:月之暗面
  • ChatGLM:清华大学

📊 模型对比

模型

架构

参数量

上下文长度

特点

GPT-4

Decoder

~1.7T

128K

多模态、推理强

LLaMA-3

Decoder

70B

8K

开源、英文强

Qwen-72B

Decoder

72B

32K

中文优化

DeepSeek-67B

Decoder

67B

32K

数学推理

🎯 面试重点

  1. 不同架构的优缺点?
  2. GPT和BERT的区别?
  3. 如何选择合适的架构?
  4. 中文模型的特殊优化?
目录
相关文章
|
机器学习/深度学习 XML 自然语言处理
Transformer 架构—Encoder-Decoder
Transformer 架构—Encoder-Decoder
1139 2
|
11月前
|
机器学习/深度学习 人工智能 缓存
万字综述,讲一讲这两年大模型这整个领域到底发展了哪些方面
本文深入探讨了自2023年GPT-4发布以来,大型语言模型(LLM)领域的发展趋势及其技术演进路径。
万字综述,讲一讲这两年大模型这整个领域到底发展了哪些方面
|
9月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
1706 125
|
5月前
|
机器学习/深度学习 物联网
什么是大模型微调?与预训练有什么区别?
大模型通过海量数据预训练获得通用能力,成本极高;微调则用少量数据调整模型,适应特定任务。轻量级方法如LoRA、PEFT等仅更新部分参数,降低资源消耗,实现高效定制。
914 5
|
4月前
|
机器学习/深度学习 API
Qwen3.5 开源家族扩容!
通义千问Qwen3.5系列重磅开源:含397B、122B、35B、27B四款模型,覆盖高性能与高性价比场景;新增Qwen3.5-Flash API,支持百万token上下文及原生工具链,已在阿里云百炼上线。
4457 4
|
4月前
|
并行计算 API Docker
Docker+vLLM内网离线部署Qwen3 流程
本教程详解如何在A10四卡内网环境中,通过Docker+ vLLM离线部署Qwen3-32B/Qwen3-VL-30B-Instruct大模型。涵盖环境准备、镜像离线导入、模型下载、容器启动及参数调优,支持FP8/KV缓存/张量并行等高性能配置,助力安全高效私有化推理
6006 8
|
11月前
|
人工智能 自然语言处理 数据可视化
企业AI落地开源五剑客:Open-WebUI、Dify、RAGFlow、FastGPT、n8n
面对企业AI落地的数据安全、技术门槛和业务整合三大痛点,本文推荐五款开源利器:Open-WebUI(零代码交互)、Dify(低代码工厂)、RAGFlow(知识处理)、FastGPT(内容生成)和n8n(流程自动化)。这些工具提供开源可控、私有化部署和模块化扩展能力,助力企业低成本构建完整AI解决方案,突破传统闭源方案的成本与灵活性限制。
|
7月前
|
人工智能 监控 算法
Transformer模型训练全解析:从数据到智能的炼金术
模型训练是让AI从数据中学习规律的过程,如同教婴儿学语言。预训练相当于通识教育,为模型打下通用知识基础;后续微调则针对具体任务。整个过程包含数据准备、前向传播、损失计算、反向更新等步骤,需克服过拟合、不稳定性等挑战,结合科学与艺术,最终使模型具备智能。