Paper之DL之BP:《Understanding the difficulty of training deep feedforward neural networks》

简介: Paper之DL之BP:《Understanding the difficulty of training deep feedforward neural networks》

原文解读


原文:http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf


image.png




文章内容以及划重点


Sigmoid的四层局限


image.png

sigmoid函数的test loss和training loss要经过很多轮数一直为0.5,后再有到0.1的差强人意的变化。



image.png


    We hypothesize that this behavior is due to the combinationof random initialization and the fact that an hidden unitoutput of 0 corresponds to a saturated sigmoid. Note that deep networks with sigmoids but initialized from unsupervisedpre-training (e.g. from RBMs) do not suffer fromthis saturation behavior.



tanh、softsign的五层局限

image.png



换为tanh函数,就会很好很快的收敛

image.png



结论


1、The normalization factor may therefore be important when initializing deep networks because of the multiplicative effect through layers, and we suggest the following initialization procedure to approximately satisfy our objectives of maintaining activation variances and back-propagated gradients variance as one moves up or down the network. We call it the normalized initialization


image.png



2、结果可知分布更加均匀

image.png

    Activation values normalized histograms with  hyperbolic tangent activation, with standard (top) vs normalized  initialization (bottom). Top: 0-peak increases for  higher layers.

      Several conclusions can be drawn from these error curves:  

(1)、The more classical neural networks with sigmoid or  hyperbolic tangent units and standard initialization  fare rather poorly, converging more slowly and apparently  towards ultimately poorer local minima.

(2)、The softsign networks seem to be more robust to the  initialization procedure than the tanh networks, presumably  because of their gentler non-linearity.

(3)、For tanh networks, the proposed normalized initialization  can be quite helpful, presumably because the  layer-to-layer transformations maintain magnitudes of activations (flowing upward) and gradients (flowing backward).

3、Sigmoid 5代表有5层,N代表正则化,可得出预训练会得到更小的误差


image.png



相关文章
|
数据安全/隐私保护 Windows
Windows 技术篇 - 远程桌面连接不保存密码、每次都要输入密码问题解决
Windows 技术篇 - 远程桌面连接不保存密码、每次都要输入密码问题解决
2607 0
Windows 技术篇 - 远程桌面连接不保存密码、每次都要输入密码问题解决
|
算法 安全 网络安全
网络安全&密码学—python中的各种加密算法
数据加密是一种保护数据安全的技术,通过将数据(明文)转换为不易被未经授权的人理解的形式(密文),以防止数据泄露、篡改或滥用。加密后的数据(密文)可以通过解密过程恢复成原始数据(明文)。数据加密的核心是密码学,它是研究密码系统或通信安全的一门学科,包括密码编码学和密码分析学。
|
数据可视化 数据挖掘 人机交互
数据可视化的艺术与科学
【6月更文挑战第16天】数据可视化结合艺术与科学,融设计美学与数据分析于一体。它以视觉元素揭示数据内涵,强调设计美感、表现力与严谨的分析方法。实践中,需明确目标、选择工具,注重交互性,并持续优化,以实现信息的有效传递和理解。
|
JavaScript 前端开发
js语句(Statement)和表达式(Expression)
js语句(Statement)和表达式(Expression)
188 0
|
存储 SQL 关系型数据库
MySql加密存储的数据,如何模糊搜索?
MySql加密存储的数据,如何模糊搜索?
505 0
|
存储 关系型数据库 MySQL
MySQL 查询优化:提速查询效率的13大秘籍(避免使用SELECT *、分页查询的优化、合理使用连接、子查询的优化)(上)
MySQL 查询优化:提速查询效率的13大秘籍(避免使用SELECT *、分页查询的优化、合理使用连接、子查询的优化)(上)
2081 0
|
关系型数据库 MySQL Linux
Docker容器数据卷技术(实现数据同步)
一、什么是数据卷 数据卷是一个可供容器使用的特殊目录,它将主机操作系统目录直接映射进容器,类似于Linux中的mount操作。 数据卷可以提供很多有用的特性,如下所示:
|
SQL Java 关系型数据库
【JDBC】使用IDEA连接数据库,执行增删改操作。
学习使用IDEA连接数据库,执行增删改操作。
515 0
【JDBC】使用IDEA连接数据库,执行增删改操作。
|
机器学习/深度学习 自然语言处理 算法
基于Transformer的蛋白质生成,具有正则化潜伏空间优化
基于Transformer的蛋白质生成,具有正则化潜伏空间优化
202 0
|
C# C语言 计算机视觉
WPF开发:高阶着色器语言(HLSL)
WPF开发:高阶着色器语言(HLSL)
330 0