深度学习如何调参,LRN全称为Local Response Normalization,Dropout叫作随机失活

简介: 调参就是trial-and-error. 没有其他捷径可以走. 唯一的区别是有些人盲目的尝试, 有些人思考后再尝试. 快速尝试, 快速纠错这是调参的关键.

深度学习如何调参



调参就是trial-and-error. 没有其他捷径可以走. 唯一的区别是有些人盲目的尝试, 有些人思考后再尝试. 快速尝试, 快速纠错这是调参的关键.


首先说下可视化:


我个人的理解, 对于可视化, 更多的还是帮助人类以自己熟悉的方式来观察网络. 因为, 你是不可能边观察网络, 还边调参的. 你只是训练完成后(或者准确率到达一个阶段后), 才能可视化. 在这之前, 网络没有学习到良好的参数, 你可视化了也没意义, 网络达到不错的准确率了, 你看看其实也就听个响. 同样, 你的网络训练的一塌糊涂, 你可视化也没什么意义, 唯一能够看到的就是中间结果乱七八糟, 或者全黑全白, 这时候你直接看最后准确率就可以知道这网络没救了.


关于权重的可视化[ Visualize Layer Weights](现在是否强求smooth其实意义不大, 这个后面说.):


同样, 你看到一个不满足平滑结果的图像, 你知道, 这网络训练的不好, 但是为什么呢? 是数据不好? 没有预处理? 网络结构问题? Learning Rate太大或者太小? 或者就是差了一个LRN层(之前我就遇到, 加个LRN就能出smooth的weights, 当然这其实和预处理有关)?

smooth的作用在loss function中的主要目的是把loss function变成continuous differerntiable function(连续可微分函数),从而在optimization(优化)


LRN全称为Local Response Normalization



局部响应归一化层,LRN函数类似Dropout,是一种防止过拟合的方法。这个函数很少使用,基本上被类似Dropout这样的方法取代。


Dropout叫作随机失活



简单来说就是在模型训练阶段的前向传播过程中,让某些神经元的激活值以一定的概率停止工作,这样可以使模型的泛化性更强。


目录
相关文章
|
机器学习/深度学习
深度学习模型调参技巧分享 视频讲解代码实战
深度学习模型调参技巧分享 视频讲解代码实战
82 0
|
机器学习/深度学习
深度学习调参和炼丹 2
深度学习调参和炼丹
104 0
|
机器学习/深度学习 算法 TensorFlow
深度学习调参和炼丹 1
深度学习调参和炼丹
75 0
|
6月前
|
机器学习/深度学习 PyTorch 算法框架/工具
【从零开始学习深度学习】30. 神经网络中批量归一化层(batch normalization)的作用及其Pytorch实现
【从零开始学习深度学习】30. 神经网络中批量归一化层(batch normalization)的作用及其Pytorch实现
|
7月前
|
机器学习/深度学习 算法 数据挖掘
深度学习调参tricks总结
深度学习调参tricks总结
97 1
深度学习调参tricks总结
|
机器学习/深度学习 人工智能 资源调度
深度学习入门基础CNN系列——批归一化(Batch Normalization)和丢弃法(dropout)
批归一化方法(Batch Normalization,BatchNorm)是由Ioffe和Szegedy于2015年提出的,已被广泛应用在深度学习中,其目的是对神经网络中间层的输出进行标准化处理,使得中间层的输出更加稳定。丢弃法(Dropout)是深度学习中一种常用的抑制过拟合的方法,其做法是在神经网络学习过程中,随机删除一部分神经元。训练时,随机选出一部分神经元,将其输出设置为0,这些神经元将不对外传递信号。
600 1
深度学习入门基础CNN系列——批归一化(Batch Normalization)和丢弃法(dropout)
|
机器学习/深度学习 人工智能 TensorFlow
谷歌大脑深度学习调参(炼丹)指南出炉,Hinton点赞,一天收获1500星
谷歌大脑深度学习调参(炼丹)指南出炉,Hinton点赞,一天收获1500星
201 0
|
机器学习/深度学习 自动驾驶 算法
为什么你的模型效果这么差,深度学习调参有哪些技巧?
为了防止这些错误发生,Josh给出的建议是:尽可能减少代码的行数,使用现成的组件,然后再构建复杂的数据pipeline。
为什么你的模型效果这么差,深度学习调参有哪些技巧?
|
机器学习/深度学习 自然语言处理 资源调度
【深度学习】batch normalization和layer normalization区别
“独立同分布”的数据能让人很快地发觉数据之间的关系,因为不会出现像过拟合等问题。 一般在模型训练之前,需要对数据做归一化。为了解决ICS问题,即internal covarivate shift(内部协变量漂移)问题,即数据分布会发生变化,对下一层网络的学习带来困难。
807 0
【深度学习】batch normalization和layer normalization区别
|
机器学习/深度学习 算法
深度学习之优化详解:batch normalization
一项优化神经网络的技术,点进来了解一下?
3003 0

相关实验场景

更多