手推公式之“层归一化”梯度

简介: 昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法

- BEGIN -

昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。

“交叉熵”反向传播推导

前向传播



image.png

反向传播



image.png

推导过程



image.png


image.png

均值和标准差的梯度



image.png

- END -

我是godweiyang,字节跳动算法工程师,末流985计算机本硕均专业第一。秋招斩获三家大厂SSP offer,擅长算法机器翻译模型加速


相关文章
|
人工智能 安全 网络安全
揭秘!大模型私有化部署的全方位安全攻略与优化秘籍,让你的AI项目稳如磐石,数据安全无忧!
【10月更文挑战第24天】本文探讨了大模型私有化部署的安全性考量与优化策略,涵盖数据安全、防火墙配置、性能优化、容器化部署、模型更新和数据备份等方面,提供了实用的示例代码,旨在为企业提供全面的技术参考。
931 6
|
12月前
|
人工智能 弹性计算 监控
分布式大模型训练的性能建模与调优
阿里云智能集团弹性计算高级技术专家林立翔分享了分布式大模型训练的性能建模与调优。内容涵盖四大方面:1) 大模型对AI基础设施的性能挑战,强调规模增大带来的显存和算力需求;2) 大模型训练的性能分析和建模,介绍TOP-DOWN和bottom-up方法论及工具;3) 基于建模分析的性能优化,通过案例展示显存预估和流水线失衡优化;4) 宣传阿里云AI基础设施,提供高效算力集群、网络及软件支持,助力大模型训练与推理。
|
人工智能 运维 安全
阿里云研发副总裁蔡德忠受邀参加乌镇峰会,畅谈AI与下一代互联网
2024年乌镇峰会“下一代互联网论坛”近日举办,主题为“创新驱动,安全赋能,共筑开放与安全的下一代互联网”。阿里云智能集团研发副总裁,基础设施网络研发负责人蔡德忠受邀参与圆桌讨论,并就人工智能(AI)与下一代互联网的融合发展分享了前瞻性见解。
|
机器学习/深度学习 自然语言处理 数据挖掘
使用Python和大模型进行数据分析和文本生成
Python语言以其简洁和强大的特性,成为了数据科学、机器学习和人工智能开发的首选语言之一。随着大模型(Large Language Models, LLMs)如GPT-4的崛起,我们能够利用这些模型实现诸多复杂任务,从文本生成到智能对话、数据分析等等。在这篇文章中,我将介绍如何用Python连接和使用大模型,并通过示例展示如何在实际项目中应用这些技术。
|
Linux
Linux上传下载百度网盘文件
Linux上传下载百度网盘文件
2139 1
|
JSON C++ 数据格式
【C++ 泛型编程 进阶篇】深入解析C++中的std::conditional_t与std::void_t:模板编程的神器
【C++ 泛型编程 进阶篇】深入解析C++中的std::conditional_t与std::void_t:模板编程的神器
842 0
|
自然语言处理 数据可视化 PyTorch
双卡3090消费级显卡推理微调OpenBuddy-LLaMA2-70B最佳实践
9月4日,OpenBuddy发布700亿参数跨语言大模型 OpenBuddy-LLaMA2-70B,并以可商用的形态全面开源!现在已经全面上架魔搭ModelScope社区。
双卡3090消费级显卡推理微调OpenBuddy-LLaMA2-70B最佳实践
|
Web App开发 NoSQL Cloud Native
MongoDB中间件工具mgm入门介绍(一)
MongoDB 数据库确实好用,但是也要依托一定的生态环境,其中就包括我们在开发过程中经常会用到的工具集。在连接 MongoDB 时,我们不可能自己单独去开发基础的功能接口,比如添加记录、删除记录、更新记录等。我们可以使用非常好用的第三方中间件来完成这样的工作,避免重复造轮子,毕竟自己造的轮子还不一定好使。今天我们就来介绍一个非常优秀的 MongoDB 数据库中间件 —— mgm 。
952 93
|
SpringCloudAlibaba Nacos 负载均衡
SpringCloud Alibaba - Nacos 作为配置中心 & 读取Properties配置信息
SpringCloud Alibaba是阿里巴巴致力于对微服务的管理、配置、注册等一整套的解决方案。 简介 Nacos 提供用于存储配置和其他元数据的 K-V 存储,为分布式系统中的外部化配置提供服务器端和客户端支持。
|
JSON JavaScript 前端开发
Gson与Fastjson两种Json解析神器保姆级使用攻略
Gson与Fastjson两种Json解析神器保姆级使用攻略
644 0
Gson与Fastjson两种Json解析神器保姆级使用攻略