备案控制台

开发者社区数据派文章正文

一文读懂神经网络初始化！吴恩达Deeplearning.ai最新干货

2019-08-25 956

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文是deeplearning.ai的一篇技术博客，对初始化值的大小选取不当，可能造成梯度爆炸或梯度消失等问题，并提出了针对性的解决方法。

来源：新智元

文章来源：微信公众号数据派THU

本文约3000字，建议阅读5分钟。

本文是deeplearning.ai的一篇技术博客，对初始化值的大小选取不当，可能造成梯度爆炸或梯度消失等问题，并提出了针对性的解决方法。

神经网络的初始化是训练流程的重要基础环节，会对模型的性能、收敛性、收敛速度等产生重要的影响。本文是deeplearning.ai的一篇技术博客，文章指出，对初始化值的大小选取不当，可能造成梯度爆炸或梯度消失等问题，并提出了针对性的解决方法。

初始化会对深度神经网络模型的训练时间和收敛性产生重大影响。简单的初始化方法可以加速训练，但使用这些方法需要注意小心常见的陷阱。本文将解释如何有效地对神经网络参数进行初始化。

有效的初始化对构建模型至关重要

要构建机器学习算法，通常要定义一个体系结构（例如逻辑回归，支持向量机，神经网络）并对其进行训练来学习参数。下面是训练神经网络的一些常见流程：

初始化参数

选择优化算法

然后重复以下步骤：

1、向前传播输入

2、计算成本函数

3、使用反向传播计算与参数相关的成本梯度

4、根据优化算法，利用梯度更新每个参数

然后，给定一个新的数据点，使用模型来预测其类型。

初始化值太大太小会导致梯度爆炸或梯度消失

初始化这一步对于模型的最终性能至关重要，需要采用正确的方法。比如对于下面的三层神经网络。可以尝试使用不同的方法初始化此网络，并观察对学习的影响。

在优化循环的每次迭代（前向，成本，后向，更新）中，我们观察到当从输出层向输入层移动时，反向传播的梯度要么被放大，要么被最小化。

假设所有激活函数都是线性的（恒等函数）。则输出激活为：

其中 L=10 ，且W[1]、W[2]…W[L-1]都是2*2矩阵，因为从第1层到L-1层都是2个神经元，接收2个输入。为了方便分析，如果假设W[1]=W[2]=…=W[L-1]=W，那么输出预测为

如果初始化值太大或太小会造成什么结果？

情况1：初始化值过大会导致梯度爆炸

如果每个权重的初始化值都比单位矩阵稍大，即：

可简化表示为

且a[l]的值随l值呈指数级增长。当这些激活用于向后传播时，会导致梯度爆炸。也就是说，与参数相关的成本梯度太大。这导致成本围绕其最小值振荡。

初始化值太大导致成本围绕其最小值震荡

情况2：初始化值过小会导致梯度消失

类似地，如果每个权重的初始化值都比单位矩阵稍小，即：

可简化表示为

且a[l]的值随l值减少呈指数级下降。当这些激活用于后向传播时，可能会导致梯度消失。也就是说，与参数相关的成本梯度太小。这会导致成本在达到最小值之前收敛。

初始化值太小导致模型过早收敛

总而言之，使用大小不合适的值对权重进行将导致神经网络的发散或训练速度下降。虽然我们用的是简单的对称权重矩阵来说明梯度爆炸/消失的问题，但这一现象可以推广到任何不合适的初始化值。

如何确定合适的初始化值

为了防止以上问题的出现，我们可以坚持以下经验原则：

1.激活的平均值应为零。

2.激活的方差应该在每一层保持不变。

在这两个假设下，反向传播的梯度信号不应该在任何层中乘以太小或太大的值。梯度应该可以移动到输入层，而不会爆炸或消失。

更具体地说，对于层l，其前向传播是：

我们想让下式成立:

确保均值为零，并保持每层输入方差值不变，可以保证信号不会爆炸或消失。该方法既适用于前向传播（用于激活），也适用于向后传播（用于关于激活的成本梯度）。

这里建议使用Xavier初始化（或其派生初始化方法），对于每个层l，有：

层l中的所有权重均自正态分布中随机挑选，其中均值 μ=0 ，方差E= 1/( n[l−1])，其中n[l−1] 是第l-1层网络中的神经元数量，偏差已初始化为零。

下图说明了Xavier初始化对五层全连接神经网络的影响。数据集为MNIST中选取的10000个手写数字，分类结果的红色方框表示错误分类，蓝色表示正确分类。

结果显示，Xavier初始化的模型性能显著高于uniform和标准正态分布（从上至下分别为uniform、标准正态分布、Xavier）。

结论

在实践中，使用Xavier初始化的机器学习工程师会将权重初始化为N（0，1/( n[l−1])）或N（0，2/（n[l-1]+n[1]））,其中后一个分布的方差是n[l-1]和n[1]的调和平均。

Xavier初始化可以与tanh激活一起使用。此外，还有大量其他初始化方法。例如，如果你正在使用ReLU，则通常的初始化是He初始化，其初始化权重通过乘以Xavier初始化的方差2来初始化。虽然这种初始化证明稍微复杂一些，但其思路与tanh是相同的。

参考链接：

https://www.deeplearning.ai/ai-notes/initialization/

编辑：王菁

校对：王欣

文章标签：

机器学习/深度学习

算法

关键词：

神经网络ai

网络初始化

神经网络初始化

初始化AI

神经网络吴恩达

初商

目录

相关文章

洛神小广播

|

2月前

|

人工智能云栖大会调度

「2025云栖大会」“简单易用的智能云网络，加速客户AI创新”专场分论坛诚邀莅临

”简单易用的智能云网络，加速客户AI创新“专场分论坛将于9月24日13:30-17:00在云栖小镇D1-5号馆举办，本场技术分论坛将发布多项云网络创新成果，深度揭秘支撑AI时代的超低时延、自适应调度与跨域协同核心技术。同时来自领先企业的技术先锋将首次公开其在模型训练、企业出海等高复杂场景中的突破性实践，展现如何通过下一代云网络实现算力效率跃升与成本重构，定义AI时代网络新范式。

洛神小广播

172 4 4

varin

|

2月前

|

人工智能 Java API

AI 超级智能体全栈项目阶段一：AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式（SDK/HTTP/SpringAI/langchain4j）

本文介绍AI大模型的核心概念、分类及开发者学习路径，重点讲解如何选择与接入大模型。项目基于Spring Boot，使用阿里云灵积模型（Qwen-Plus），对比SDK、HTTP、Spring AI和LangChain4j四种接入方式，助力开发者高效构建AI应用。

varin

1378 122 129

AI 超级智能体全栈项目阶段一：AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式（SDK/HTTP/SpringAI/langchain4j）

游客5iyoaxspa2662

|

3月前

|

机器学习/深度学习传感器人工智能

深度神经网络驱动的AI Agent

深度神经网络（DNN）驱动的AI Agent在实时预测中展现出强大能力，能够通过在线学习快速适应变化，广泛应用于金融、自动驾驶等领域，提升预测效率与决策水平。

游客5iyoaxspa2662

147 0 0

游客nhtxisojx4oim

|

2月前

|

人工智能运维安全

从被动防御到主动免疫进化！迈格网络 “天机” AI 安全防护平台，助推全端防护性能提升

迈格网络推出“天机”新版本，以AI自学习、全端防护、主动安全三大核心能力，重构网络安全防线。融合AI引擎与DeepSeek-R1模型，实现威胁预测、零日防御、自动化响应，覆盖Web、APP、小程序全场景，助力企业从被动防御迈向主动免疫，护航数字化转型。

游客nhtxisojx4oim

172 2 2

从被动防御到主动免疫进化！迈格网络 “天机” AI 安全防护平台，助推全端防护性能提升

承慕

|

6月前

|

人工智能运维安全

中企出海大会｜打造全球化云计算一张网，云网络助力中企出海和AI创新

阿里云网络作为全球化战略的重要组成部分，致力于打造具备AI技术服务能力和全球竞争力的云计算网络。通过高质量互联网服务、全球化网络覆盖等措施，支持企业高效出海。过去一年，阿里云持续加大基础设施投入，优化海外EIP、GA产品，强化金融科技与AI场景支持。例如，携程、美的等企业借助阿里云实现业务全球化；同时，阿里云网络在弹性、安全及性能方面不断升级，推动中企迎接AI浪潮并服务全球用户。

承慕

1053 8 9

Syscloud犀思云

|

2月前

|

人工智能监控数据可视化

如何破解AI推理延迟难题：构建敏捷多云算力网络

本文探讨了AI企业在突破算力瓶颈后，如何构建高效、稳定的网络架构以支撑AI产品化落地。文章分析了典型AI IT架构的四个层次——流量接入层、调度决策层、推理服务层和训练算力层，并深入解析了AI架构对网络提出的三大核心挑战：跨云互联、逻辑隔离与业务识别、网络可视化与QoS控制。最终提出了一站式网络解决方案，助力AI企业实现多云调度、业务融合承载与精细化流量管理，推动AI服务高效、稳定交付。

Syscloud犀思云

171 3 4

对你痴情

|

7月前

|

人工智能 Kubernetes 安全

生成式AI时代，网络安全公司F5如何重构企业防护体系？

生成式AI时代，网络安全公司F5如何重构企业防护体系？

对你痴情

182 9 9

蚝油菜花

|

7月前

|

人工智能搜索推荐开发者

GPT-4o测评准确率竟不到1%！BrowseComp：OpenAI开源AI代理评测新基准，1266道高难度网络检索问题

OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题，覆盖影视、科技、艺术等九大领域，其最新Deep Research模型以51.5%准确率展现复杂信息整合能力，为AI代理的浏览能力评估建立新标准。

蚝油菜花

509 4 4

GPT-4o测评准确率竟不到1%！BrowseComp：OpenAI开源AI代理评测新基准，1266道高难度网络检索问题

卓伊凡

|

7月前

|

人工智能物联网编译器

【01】优雅草星云物联网AI智控系统从0开发鸿蒙端适配完成流程-初始化鸿蒙编译器deveco studio项目结构-UI设计图切片下载-优雅草卓伊凡

【01】优雅草星云物联网AI智控系统从0开发鸿蒙端适配完成流程-初始化鸿蒙编译器deveco studio项目结构-UI设计图切片下载-优雅草卓伊凡

卓伊凡

232 11 11

【01】优雅草星云物联网AI智控系统从0开发鸿蒙端适配完成流程-初始化鸿蒙编译器deveco studio项目结构-UI设计图切片下载-优雅草卓伊凡

蚝油菜花

|

10月前

|

数据采集人工智能自然语言处理

FireCrawl：开源 AI 网络爬虫工具，自动爬取网站及子页面内容，预处理为结构化数据

FireCrawl 是一款开源的 AI 网络爬虫工具，专为处理动态网页内容、自动爬取网站及子页面而设计，支持多种数据提取和输出格式。

蚝油菜花

3729 71 74

FireCrawl：开源 AI 网络爬虫工具，自动爬取网站及子页面内容，预处理为结构化数据

数据派

热门文章

最新文章

概率神经网络的分类预测--基于PNN的变压器故障诊断（Matlab代码实现）

基于灰色神经网络的预测方法

构建AI智能体：四、工欲善其事，选择合适的AI编程利器：Cursor、CodeBuddy、Trae

如何准确检测AI生成内容？这三大技术是关键

如何准确检测AI生成内容？这几种技术方法值得关注

AI生成的痕迹：我们如何检测机器撰写的文本

如何识别AI生成内容？这几点技术指标是关键

如何识别AI生成内容？探秘“AI指纹”检测技术

AI生成的文本：如何识破机器的“笔迹”？

揭秘AI文本：当前主流检测技术与挑战

基于遗传优化ELM网络的时间序列预测算法matlab仿真

基于PSO粒子群优化的BiLSTM双向长短期记忆网络序列预测算法matlab仿真,对比BiLSTM和LSTM

bp神经网络电力系统短期负荷预测

如何用 eBPF 实现 Kubernetes 网络可观测性？实战指南

网管不再抓头发：深度学习教你提前发现网络事故

Go语言网络编程：使用 net/http 构建 RESTful API

网络延迟监测工具选择（第一篇）

Go 网络编程：HTTP服务与客户端开发

AWK在网络安全中的高效应用：从日志分析到威胁狩猎

Go网络编程：基于TCP的网络服务端与客户端

相关课程

更多

【科技少年】AI领航员探索教程（赛前训练）

达摩院视觉AI精品课

AI开发者的Docker实践

趣味视觉AI应用入门与实战

神经网络概览及算法详解

AI数学基础

相关电子书

更多

阿里云AI原生架构与企业实践专场分享材料

基于神经网络的语言合成

机器能理解上下文吗-RNN和LSTM神经网络的原理及应用

相关实验场景

更多

使用AI容器镜像部署Qwen大语言模型

【玩转ComfyUI】基于函数计算一键部署AI生图平台ComfyUI

【AI破次元壁合照】少年白马醉春风，函数计算一键部署AI绘画平台

函数计算一键部署AI大语言模型并会话

下一篇

oss云网关配置