TensorFlow 常用优化器：GradientDescent、Momentum、Adam-阿里云开发者社区

TensorFlow 常用优化器：GradientDescent、Momentum、Adam

2022-11-22 547

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： TensorFlow 常用优化器：GradientDescent、Momentum、Adam

Tensorflow中支持11中不同的优化器，包括：

tf.train.Optimizer

tf.train.GradientDescentOptimizer

tf.train.AdadeltaOptimizer

tf.train.AdagradOptimizer

tf.train.AdagradDAOptimizer

tf.train.MomentumOptimizer

tf.train.AdamOptimizer

tf.train.FtrlOptimizer

tf.train.RMSPropOptimizer

tf.train.ProximalAdagradOptimizer

tf.train.ProximalGradientDescentOptimizer

常用的主要有3种，分别是

（1） GradientDescent

optimizer  = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss)

使用随机梯度下降算法，使参数沿着

梯度的反方向，即总损失减小的方向移动，实现更新参数。

（2） Momentum

optimizer = tf.train.MomentumOptimizer(learning_rate,momentum).minimize(loss)

在更新参数时，利用了超参数

其中，

β : the momentum

α : the learning rate

（3） Adam

optimizer =  tf.train.AdamOptimizer(learning_rate=0.001, 
                                   beta1=0.9, beta2=0.999, 
                                   epsilon=1e-08).minimize(loss)

利用自适应学习率的优化算法（此时learning_rate传入固定值，不支持使用指数衰减方式），Adam 算法和随机梯度下降算法不同。随机梯度下降算法保持单一的学习率更新所有的参数，学习率在训练过程中并不会改变。而 Adam 算法通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。