前馈神经网络

简介: 前馈网络(FFN)是Transformer的核心组件,提供非线性变换能力。标准FFN采用“线性变换-激活函数-线性变换”结构,常用ReLU、GELU和SwiGLU等激活函数。其中GELU被BERT采用,SwiGLU则用于LLaMA。MoE(混合专家)模型通过稀疏激活实现高效计算,在参数量大的同时保持较低计算开销,具备动态路由与专家并行特性。三者在参数量、计算量与表达能力上各有优势。

🎯 概述

前馈网络(FFN)是Transformer中的重要组件,提供非线性变换能力。

🏗️ 网络结构

1️⃣ 标准FFN

  • 结构:Linear → Activation → Linear
  • 公式
  • 扩展系数:通常4倍隐藏维度

2️⃣ 混合专家模型 (MoE)

  • 原理:稀疏激活的专家网络
  • 特点
  • 参数量大但计算高效
  • 动态路由机制
  • 专家并行

激活函数

1️⃣ ReLU

  • 公式
  • 特点:简单高效,但可能神经元死亡

2️⃣ GELU

  • 公式
  • 特点:平滑激活,BERT使用

3️⃣ SwiGLU

  • 公式
  • 特点:GLU变体,LLaMA使用

📊 结构对比

类型

参数量

计算量

表达能力

标准FFN

MoE

目录
相关文章
|
XML 消息中间件 算法
Android 夜间模式的四种实现
实现夜间模式有很多种方式,经过多次尝试,算是找到了一种性价比较高的方式。 这是最正统的方式,但工作量巨大,因为要全局替换 xml 布局中所有硬编码的色值,将其换成主题色。然后通过换主题达到换肤的效果。
1010 0
Android 夜间模式的四种实现
|
安全 算法 程序员
【C/C++ 文件操作】深入理解C语言中的文件锁定机制
【C/C++ 文件操作】深入理解C语言中的文件锁定机制
498 0
|
NoSQL 调度 数据中心
|
8月前
|
Linux Shell 数据处理
十三、Linux Shell脚本:文本处理三剑客之 sed 与 awk
如果说grep是文本处理的“探照灯”,那sed和awk就是“手术刀”和“瑞士军刀”。sed 擅长按行“动手术”,可以轻松地删除、打印或替换特定行的内容,尤其是它的替换功能(s/.../.../)非常强大。而 awk 更厉害,它天生就能看懂按列(字段)分布的数据,像个小型的Excel。你可以让它只打印某几列,或者根据某一列的值做计算和判断,特别适合生成统计报告。
642 1
|
机器学习/深度学习 人工智能 算法
深入解析图神经网络:Graph Transformer的算法基础与工程实践
Graph Transformer是一种结合了Transformer自注意力机制与图神经网络(GNNs)特点的神经网络模型,专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术,实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉,显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景,并通过图书推荐系统的实例,展示了其在实际问题解决中的强大能力。
2110 30
|
监控 Ubuntu 测试技术
Ubuntu 20.04 安装部署 TiDB DM v7.3.0 集群【全网独家】
在Ubuntu上搭建TiDB DM集群的详细步骤分享,作者因工作需求克服了部署难题。测试环境包括3台Ubuntu 20.04主机:1台master和2台worker。首先,确保所有主机安装TiDB单机环境,使用TiUP工具下载并部署。接着,设置主机间免密登录,安装必要组件如sudo、systemd、iproute2和DM组件。配置文件可通过在线或离线方式获取。部署时,根据需求编辑`topology.yaml`,然后使用`tiup dm deploy`命令安装。最后,启动集群并检查节点状态,确认DM集群正常运行。注意,解决内存不足和端口连通性问题以避免错误。
1092 3
|
存储 Linux API
深入探索Android系统架构:从内核到应用层的全面解析
本文旨在为读者提供一份详尽的Android系统架构分析,从底层的Linux内核到顶层的应用程序框架。我们将探讨Android系统的模块化设计、各层之间的交互机制以及它们如何共同协作以支持丰富多样的应用生态。通过本篇文章,开发者和爱好者可以更深入理解Android平台的工作原理,从而优化开发流程和提升应用性能。
|
Linux Docker 容器
【赵渝强老师】Docker的Bridge网络模式
本文介绍了Docker容器的网络隔离机制及其四种网络模式:bridge、container、host和none。重点讲解了默认的bridge模式,通过示例演示了如何创建自定义bridge网络并配置容器的网络信息。文中还附有相关图片和视频讲解,帮助读者更好地理解Docker网络的配置和使用方法。
645 0
在Linux中,有一堆日志文件,如何删除7天前的日志文件?
在Linux中,有一堆日志文件,如何删除7天前的日志文件?
|
C# Android开发 iOS开发
一组.NET MAUI绘制的开源控件 - AlohaKit
一组.NET MAUI绘制的开源控件 - AlohaKit
361 0