【学习记录】《DeepLearning.ai》第六课:优化算法(Optimization algorithms)

简介: 2021/9/7

第六课:优化算法(Optimization algorithms)

6.1 Mini-batch梯度下降

image

上图表示了整个Mini-batcha梯度下降的过程。

首先对$X^{\{t\}}$执行前项传播,$X^{\{t\}}$表示的是对于整个训练集之后的样本值,比如共有5000000个样本,每1000个划分一次,则$X^{\{t\}}$表示第t个1000个样本的x值,维度为$(n_x,1000)$,注意与X$(n_x,m)$维度的区别.$Y^{\{t\}}$同理,维度为:$(1,1000)$,注意与Y$(1,1000)$维度的区别。

mini-batch与batch区别:使用batch梯度下降法,一次遍历训练集只能做一次梯度下降,而mini-batch可以做5000个梯度下降(以本题为例)。正常来说需要多次遍历训练集,需要另外一层for循环,直到最后能收敛到一个合适的精度。


6.2 理解mini-batch梯度下降法

image

第二个图没看懂emmmm

image

如上图,如果考虑两种极端的情况:
1.mini-batch的大小等于 𝑚,这个时候也就是batch梯度下降法;

2.mini-batch的大小等于1,这个时候叫随机梯度下降。

batch梯度下降法的缺点:数据量太大,处理速度慢

随机梯度下降的缺点:因为没有向量化的过程,所以速度也会很慢。

样本集较小没必要采取mini-batch梯度下降法。

因此通常在实践中对于mini-batch的大小通常需要选择合适的尺寸,使得学习率达到最高。

上个视频的例子中mini-batch的大小为1000。


6.3 指数加权平均数(Exponentially weighted averages)

image

上图蓝色的点绘制的是日期和温度的关系,

作出如下定义:

$$ v_t=\beta v_{t-1}+(1-\beta)\theta_t $$

其中$v_t$表示第t天的加权平均数,$\theta_t$​表示第t天的温度值。$\beta$​表示加权参数。

$\beta$的值取决所画出的图像平坦程度。如上图所示。$\beta$越大,指数加权平均值适应越缓慢,图像越平缓。


6.4 理解指数加权平均数(Understanding exponentially weighted averages)

个人理解:第t天的温度是计算之前多少天温度之和的平均值的时候,也就是离第t天越远的之前天数对于第t天的温度影响越小,而这个影响因此,需要令

$$ \beta^{(\frac{1}{1-\beta})}=\frac{1}{e} $$

比如$\beta=0.9$​​​,则$0.9^{10}=\frac{1}{e}$​​,也就是我们计算之前10天的平均值表示当天的温度

若$\beta=0.98$​,则$0.98^{50}=\frac{1}{e}$​​,也就是我们计算之前50天的平均值表示当天的温度.

这就是个人理解的指数加权平均数。


6.5 指数加权平均的偏差修正(Bias correction in exponentially weighted averages)

偏差修正是指在估测初期,令

$$ v_t=\frac{v_t}{1-\beta^t} $$

随着t逐渐增大,$\beta^t$​逐渐变为0,也就和之前温度估测一样了。也就是第t天的温度为$v_t$。

但是吴老师说在大多数时候都不执行偏差修正,除非我们关心初期的计算结果,就需要使用偏差修正来进行计算。


6.6 动量梯度下降法(Gradient descent with Momentum)

动量梯度下降法(Momentum)通常比梯度下降法要好,过程如下:

image

使用了指数加权平均,吴老师说在有些Momentum算法中忽略了$1-\beta$这一项,但是通常加上这一项比较好,如果忽略这一项,相应的学习率也要随之改变,通常设置$\beta$​为0.9,如上图所示,而通常不需要偏差修正,也就是图中的蓝色公式。


6.7 RMSprop

image

和之前的Momentum算法相似,上图给出了算法的具体公式(原理没怎么搞懂。。。)。

注意两点,为了和之后的$\beta$区分,这里用了$\beta_2$来表示,同时为了保证分母不为0,可以加上一个小参数$\xi$,通常$\xi=10^{-8}$。这也是加快梯度运算的算法之一。


6.8 Adam优化算法(Adam optimization algorithm)

该算法是Momentum算法和RMSprop算法的结合,如下图所示:

image

关于一些参数的选择参考下图:

image


6.9 学习率衰减(Learning rate decay)

慢慢减少$\alpha$的本质在于,在学习初期,你能承受较大的步伐,但当开始收敛的时候,小一些的学习率能让你步伐小一些。

image

image

上图给出了$\alpha$的选择公式,其中epoch-num代表迭代次数。


6.10 局部最优的问题(The problem of local optima)

PASS

相关文章
|
8天前
|
传感器 人工智能 监控
智慧电厂AI算法方案
智慧电厂AI算法方案通过深度学习和机器学习技术,实现设备故障预测、发电运行优化、安全监控和环保管理。方案涵盖平台层、展现层、应用层和基础层,具备精准诊断、智能优化、全方位监控等优势,助力电厂提升效率、降低成本、保障安全和环保合规。
智慧电厂AI算法方案
|
21天前
|
机器学习/深度学习 数据采集 人工智能
AI赋能教育:深度学习在个性化学习系统中的应用
【10月更文挑战第26天】随着人工智能的发展,深度学习技术正逐步应用于教育领域,特别是个性化学习系统中。通过分析学生的学习数据,深度学习模型能够精准预测学生的学习表现,并为其推荐合适的学习资源和规划学习路径,从而提供更加高效、有趣和个性化的学习体验。
79 9
|
22天前
|
存储 算法 安全
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
数据结构与算法系列学习之串的定义和基本操作、串的储存结构、基本操作的实现、朴素模式匹配算法、KMP算法等代码举例及图解说明;【含常见的报错问题及其对应的解决方法】你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
|
8天前
|
机器学习/深度学习 人工智能 监控
智慧交通AI算法解决方案
智慧交通AI算法方案针对交通拥堵、违法取证难等问题,通过AI技术实现交通管理的智能化。平台层整合多种AI能力,提供实时监控、违法识别等功能;展现层与应用层则通过一张图、路口态势研判等工具,提升交通管理效率。方案优势包括先进的算法、系统集成性和数据融合性,应用场景涵盖车辆检测、道路环境检测和道路行人检测等。
|
15天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
8天前
|
传感器 人工智能 监控
智慧化工厂AI算法方案
智慧化工厂AI算法方案针对化工行业生产过程中的安全风险、效率瓶颈、环保压力和数据管理不足等问题,通过深度学习、大数据分析等技术,实现生产过程的实时监控与优化、设备故障预测与维护、安全预警与应急响应、环保监测与治理优化,全面提升工厂的智能化水平和管理效能。
智慧化工厂AI算法方案
|
15天前
|
人工智能 算法 大数据
Linux内核中的调度算法演变:从O(1)到CFS的优化之旅###
本文深入探讨了Linux操作系统内核中进程调度算法的发展历程,聚焦于O(1)调度器向完全公平调度器(CFS)的转变。不同于传统摘要对研究背景、方法、结果和结论的概述,本文创新性地采用“技术演进时间线”的形式,简明扼要地勾勒出这一转变背后的关键技术里程碑,旨在为读者提供一个清晰的历史脉络,引领其深入了解Linux调度机制的革新之路。 ###
|
15天前
|
人工智能 自然语言处理 搜索推荐
AI辅助教育:个性化学习的新纪元
【10月更文挑战第31天】随着人工智能(AI)技术的发展,教育领域迎来了一场前所未有的变革。AI辅助教育通过智能推荐、语音助手、评估系统和虚拟助教等应用,实现了个性化学习,提升了教学效率。本文探讨了AI如何重塑教育模式,以及个性化学习在新时代教育中的重要性。
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI驱动的个性化学习平台构建###
【10月更文挑战第29天】 本文将深入探讨如何利用人工智能技术,特别是机器学习与大数据分析,构建一个能够提供高度个性化学习体验的在线平台。我们将分析当前在线教育的挑战,提出通过智能算法实现内容定制、学习路径优化及实时反馈机制的技术方案,以期为不同背景和需求的学习者创造更加高效、互动的学习环境。 ###
40 3
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】基于多轮课程学习的大语言模型蒸馏算法 TAPIR
阿里云人工智能平台 PAI 与复旦大学王鹏教授团队合作,在自然语言处理顶级会议 EMNLP 2024 上发表论文《Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning》。

热门文章

最新文章

下一篇
无影云桌面