最优化学习 最速下降法(steepest Descent)

简介: 最优化学习 最速下降法(steepest Descent)

最速(陡)下降法(steepest Descent)


v正则化为2范数

20210530012842379.jpg


v为1范数和v为无穷范数

image.jpeg


Steepest Gradient的变种


坐标轴交替下降法(Coordinate Descent)

20210530013030925.jpg

20210530013109929.jpg

若f(x)在某点不可微(引入次梯度 subgradient)

20210530013119788.jpg

例子


20210530013204583.jpg


相关文章
|
机器学习/深度学习 自然语言处理 算法
深度学习基础入门篇[三]:优化策略梯度下降算法:SGD、MBGD、Momentum、Adam、AdamW
深度学习基础入门篇[三]:优化策略梯度下降算法:SGD、MBGD、Momentum、Adam、AdamW
深度学习基础入门篇[三]:优化策略梯度下降算法:SGD、MBGD、Momentum、Adam、AdamW
|
机器学习/深度学习 数据采集 前端开发
机器学习--方差和偏差、Bagging、Boosting、Stacking
机器学习--方差和偏差、Bagging、Boosting、Stacking
225 0
机器学习--方差和偏差、Bagging、Boosting、Stacking
|
机器学习/深度学习 算法
机器学习算法之——梯度提升(Gradient Boosting)下
GDBT本身并不复杂,不过要吃透的话需要对集成学习的原理、策树原理和各种损失函树有一定的了解。由于GBDT的卓越性能,只要是研究机器学习都应该掌握这个算法,包括背后的原理和应用调参方法。目前GBDT的算法比较好的库是xgboost。当然scikit-learn也可以。
机器学习算法之——梯度提升(Gradient Boosting)下
|
机器学习/深度学习 算法 Python
机器学习算法之——梯度提升(Gradient Boosting)上
由于每个子模型要使用全部的数据集进行训练,因此 Ada Boosting 算法中没有 oob 数据集,在使用 Ada Boosting 算法前,需要划分数据集:train_test_split;
机器学习算法之——梯度提升(Gradient Boosting)上
|
机器学习/深度学习 算法
梯度下降算法原理 神经网络(Gradient Descent)
梯度下降算法原理 神经网络(Gradient Descent)
147 0
梯度下降算法原理 神经网络(Gradient Descent)
梯度下降算法过程以及感知机算法与梯度下降算法区别
梯度下降算法过程以及感知机算法与梯度下降算法区别
|
机器学习/深度学习 智能设计 自然语言处理
Gradient Normalization在多任务学习中的优化实践
在每平每屋以及我们团队负责的其他一些场景,MMoE多任务模型是精排阶段常用的模型。在每平每屋场景中,我们使用MMoE模型,对场景中的三个任务同时进行点击率预估,即内容的一跳点击、内容详情页点击以及跳转的商品详情页点击。
529 0
Gradient Normalization在多任务学习中的优化实践
|
机器学习/深度学习
机器学习中Gradient Descent (Vanilla)梯度下降法的过程
机器学习中Gradient Descent (Vanilla)梯度下降法的过程
机器学习中Gradient Descent (Vanilla)梯度下降法的过程