前馈神经网络

在线体验各类最新模型,更有模型 免费Token 额度领取!
立即体验
简介: 前馈网络(FFN)是Transformer的核心模块,提供非线性变换。标准FFN为两层线性加激活函数,扩展倍数通常为4;MoE则通过稀疏激活、动态路由提升模型容量与效率。常用激活函数包括ReLU、GELU(BERT采用)和SwiGLU(LLaMA采用)。相比标准FFN,MoE参数更多、表达更强,计算更高效。

概述
前馈网络(FFN)是Transformer中的重要组件,提供非线性变换能力。
🏗️ 网络结构
1️⃣ 标准FFN
● 结构:Linear → Activation → Linear
● 公式:$\text{FFN}(x) = \text{Linear}(\text{Activation}(\text{Linear}(x)))$
● 扩展系数:通常4倍隐藏维度
2️⃣ 混合专家模型 (MoE)
● 原理:稀疏激活的专家网络
● 特点:
○ 参数量大但计算高效
○ 动态路由机制
○ 专家并行
⚡ 激活函数
1️⃣ ReLU
● 公式:$\text{ReLU}(x) = \max(0, x)$
● 特点:简单高效,但可能神经元死亡
2️⃣ GELU
● 公式:$\text{GELU}(x) = x \cdot \Phi(x)$
● 特点:平滑激活,BERT使用
3️⃣ SwiGLU
● 公式:$\text{SwiGLU}(x) = \text{SiLU}(xW) \otimes (xV)$
● 特点:GLU变体,LLaMA使用
📊 结构对比
类型 参数量 计算量 表达能力
标准FFN 少 少 中
MoE 多 中 强

相关文章
|
7月前
|
人工智能 数据可视化 安全
WhatsApp Business API 怎么用?阿里云 Chat App 常见问题(持续更新)
全面解答阿里云 Chat App 消息服务高频问题,涵盖 WhatsApp Business 账号注册、模板审核、API 集成、多通道发送、计费规则、AI 机器人配置、安全合规等。出海企业必备指南,助您高效触达全球 30 亿用户。
1296 0
|
9月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
2547 4
|
关系型数据库 BI OLAP
一招解决数据库中报表查询慢的痛点
本文旨在解决传统数据库系统如PostgreSQL在处理复杂分析查询时面临的性能瓶颈问题。
2159 164
一招解决数据库中报表查询慢的痛点
|
机器学习/深度学习 PyTorch 算法框架/工具
【Transformer系列(5)】Transformer代码超详细解读(Pytorch)
【Transformer系列(5)】Transformer代码超详细解读(Pytorch)
2738 1
【Transformer系列(5)】Transformer代码超详细解读(Pytorch)
|
存储 编解码 数据处理
云端问道第4期实践教学——多媒体数据存储与分发方案部署演示
该文档详细介绍了阿里云一键部署和手动部署多媒体数据存储与分发方案的步骤。一键部署通过资源编排服务(ROS)实现自动化,涵盖注册账号、开通服务、创建OSS Bucket、配置CDN加速及绑定IMM等功能,简化了复杂操作。手动部署则更细致地展示了每个配置环节,包括网络规划、资源创建、域名绑定、CDN配置、证书加密及最终的验证与清理,确保用户对整个流程有清晰理解。两种方式均以OSS为核心,支持数据上传、转码处理和加速分发,保障高效稳定的用户体验。
819 4
|
机器学习/深度学习 自然语言处理 API
ChatGLM-6B (介绍以及本地部署)
ChatGLM-6B (介绍以及本地部署)
2349 0
|
机器学习/深度学习 算法 API
【机器学习】正则化,欠拟合与过拟合(详细代码与图片演示!助你迅速拿下!!!)
【机器学习】正则化,欠拟合与过拟合(详细代码与图片演示!助你迅速拿下!!!)
|
XML JSON 编解码
PyMuPDF 1.24.4 中文文档(十)(2)
PyMuPDF 1.24.4 中文文档(十)
355 0
|
Java 知识图谱
知识图谱(Knowledge Graph)- Neo4j 5.10.0 使用 - Java SpringBoot 操作 Neo4j
知识图谱(Knowledge Graph)- Neo4j 5.10.0 使用 - Java SpringBoot 操作 Neo4j
942 0
|
知识图谱 自然语言处理 算法
大语言模型 RAG 论文总结(2023~202404)(1)
大语言模型 RAG 论文总结(2023~202404)
911 0