【学习记录】《DeepLearning.ai》第七课:超参数调试、Batch正则化和程序框架

简介: 2021/9/7

第七课:超参数调试、Batch正则化和程序框架

7.1 调试处理(Tuning process)

image

我们通常需要处理超参数,如上图。

第一个是学习率,第二个是Moentum(动量梯度下降法)的参数,如果使用了Adam优化算法,也需要调整第三个参数,第三行参数一般有默认值,如图所示。

第四行表示神经网络的层数,第五行是隐藏单元数量,第六行是学习率衰减,第七行是mini-batch的尺寸。

对于参数进行随机取值能够提高搜索效率

其中学习率是最重要的调试参数


7.2 为超参数选择合适的范围(Using an appropriate scale to pick hyperparameters)

首先对学习率$\alpha$​的选择:

image

如上图所示,简单解释一下,让学习率在0.0001到1之间取值,用到Python中可以这样做:

r=-4*np.random.rand()
alpha=10^r

对于上面的式子,r的取值范围为[-4,0],进而得到alpha的取值为[0.0001,1]

其次对于指数加权平均值的参数$\beta$​选择:

假设$\beta$​在[0.9,0.999]之间取值,如下图:

image

同样可以用上面的方法,先计算$1-\beta$的值,

$$ r\in[-3,-1]\\ 1-\beta=10^r\\ \beta=1-10^r $$

image

注意上图两个取值范围的区别,选择第二个,第一个大概取十个平均值,而对于第二个来说,是取1000、2000个值,注意区别。


7.3 超参数调试实践:(Pandas VS Caviar)

image

第一种情况用于数据量较大同时计算机算力不足的情况,一遍训练一遍调整参数。

第二种情况用于数据量适中同时计算机算力强大的情况,可以多次训练模型进而选择较好的参数。

尝试选择不同的超参数。


7.4 归一化网络的激活函数(Normalizing activations in a network)

Batch归一化算法

image

对神经网络的某一层进行归一化,步骤如上图所示。

$$ \widetilde Z^{(i)}=\gamma Z^{(i)}_{norm}+\beta $$

该算法的的作用是使得隐藏单元值的均值和方差标准化,也就是$Z^{(i)}$​有固定的均值和方差,均值和方差的大小由$\gamma$和$\beta$两个参数来控制的。


7.5 将Batch Norm拟合进神经网络(Fitting Batch Norm into a neural network)

image

个人理解:将Batch Norm拟合进神经网络指的是执行下面的过程:

image

也就是执行完前两步之后引入再计算$\widetilde Z^{[i]}$​,然后其他正常往后计算。原理还是似懂非懂。。。


7.6 Batch Norm 奏效的原因

Batch归一化的作用:当输入值发生改变时,它可以使这些值变得更稳定,或者说其减弱了前层参数与后层参数的作用之间的联系,使得网络每层都可以自己学习,稍微独立于其它层,能够加快整个网络的学习。

其还有一个作用,有轻微的正则化效果,

所以和dropout相似,它往每个隐藏层的激 活值上增加了噪音, dropout有增加噪音的方式,它使一个隐藏的单元,以一定的概率乘以 0,以一定的概率乘以 1,所以你的 dropout含几重噪音,因为它乘以 0或 1。

Batch归一化含有几重噪音。

也可以将Batch归一化和dropout一起使用,获得更强大的正则化效果。

同时应用尺寸较大的mini-batch可以减少正则化效果。

最后需要知道,Batch归一化一次只能处理一个mini-batch数据,它在mini-batch上计算均值和方差。

水平有限,看了课也就只能理解这么多了。。。


7.7 测试时的Batch Norm

Batch归一化将你的数据以mini-batch的形式逐一处理,但是在测试中,可能需要对每一个样本逐一处理。

总结下这节内容吧:

image

通常在训练时候,$\mu$和$\sigma^2$是整个mini-batch上计算出来的包含了比如64/128尺寸大小的样本数量。然而测试时候我们需要一个个处理样本,在这块我们需要使用指数加权平均来得到我们需要的$\mu$和$\sigma^2$,然后在测试中使用$\mu$和$\sigma^2$来计算隐藏单元所需要的z值。


7.8 Softmax回归(Softmax regression)

应用于多分类问题

image

应用在最后一层,此时激活函数为:

$$ Z^{[l]}=W^{[l]}a^{[l-1]}+b^{[l]}\\ 激活函数如下:t=e^{z^{[l]}}\\ a^{[l]}=\frac{e^{z^{[l]}}}{\sum_{j=1}^{4}t_i}或者:a^{[l]}_i=\frac{t_i}{\sum_{j=1}^{4}t_i} $$

本例最后有四个输出分类。可以看到最后输出的是每个类别的可能性。


7.9 训练一个Softmax分类器(Training a Softmax classifier)

在Softmax中的损失函数是:

$$ L(\widehat y,y)=-\sum_{j=1}^{4}y_jlog\widehat y_j $$

image

要保证损失函数最小,如上图所示,只要$\widehat y$足够大,也就是针对某一类的预测概率足够大即可。

概括来讲,损失函数所做的就是它找到你的训练集中的真实类别,然后试图使该类别相应的概率尽可能地高。

image

注意上图中的维度

对于整个训练集的损失函数:

$$ J(w^{[1]},b^{[1]},...,...)=\frac{1}{m}\sum_{i=1}^{m}L(\widehat y^{(i)},y^{(i)}) $$

使用梯度下降法,使得损失函数的值最小:

$$ dz^{[l]}=\widehat y-y $$

吴老师说,使用一种深度学习的编程框架,我们只需要关注把前向传播做好,程序会自动做好反向传播。


7.10 深度学习框架(Deep Learning frameworks)

image

选择深度学习框架需要注意如下事项:

1.便于编程

2.运行速度较快

3.框架开源


7.11 Tensorflow

image

通常tensorflow框架内置了许多优化函数,如梯度下降,adams等方法。


OVER!

继续冲!!!

相关文章
|
2月前
|
存储 消息中间件 人工智能
【03】AI辅助编程完整的安卓二次商业实战-本地构建运行并且调试-二次开发改注册登陆按钮颜色以及整体资源结构熟悉-优雅草伊凡
【03】AI辅助编程完整的安卓二次商业实战-本地构建运行并且调试-二次开发改注册登陆按钮颜色以及整体资源结构熟悉-优雅草伊凡
114 3
|
2月前
|
机器学习/深度学习 数据采集 人工智能
PyTorch学习实战:AI从数学基础到模型优化全流程精解
本文系统讲解人工智能、机器学习与深度学习的层级关系,涵盖PyTorch环境配置、张量操作、数据预处理、神经网络基础及模型训练全流程,结合数学原理与代码实践,深入浅出地介绍激活函数、反向传播等核心概念,助力快速入门深度学习。
183 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
迁移学习:让小数据也能驱动AI大模型
迁移学习:让小数据也能驱动AI大模型
299 99
|
2月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1366 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
2月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
1064 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
|
2月前
|
人工智能 数据可视化 数据处理
AI智能体框架怎么选?7个主流工具详细对比解析
大语言模型需借助AI智能体实现“理解”到“行动”的跨越。本文解析主流智能体框架,从RelevanceAI、smolagents到LangGraph,涵盖技术门槛、任务复杂度、社区生态等选型关键因素,助你根据项目需求选择最合适的开发工具,构建高效、可扩展的智能系统。
702 3
AI智能体框架怎么选?7个主流工具详细对比解析
|
2月前
|
存储 消息中间件 人工智能
【08】AI辅助编程完整的安卓二次商业实战-修改消息聊天框背景色-触发聊天让程序异常终止bug牵涉更多聊天消息发送优化处理-优雅草卓伊凡
【08】AI辅助编程完整的安卓二次商业实战-修改消息聊天框背景色-触发聊天让程序异常终止bug牵涉更多聊天消息发送优化处理-优雅草卓伊凡
227 10
【08】AI辅助编程完整的安卓二次商业实战-修改消息聊天框背景色-触发聊天让程序异常终止bug牵涉更多聊天消息发送优化处理-优雅草卓伊凡
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
275 10
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
|
1月前
|
人工智能 JavaScript 前端开发
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
189 6
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
拔俗AI学伴智能体系统:基于大模型与智能体架构的下一代个性化学习引擎
AI学伴智能体系统融合大模型、多模态理解与自主决策,打造具备思考能力的个性化学习伙伴。通过动态推理、长期记忆、任务规划与教学逻辑优化,实现千人千面的自适应教育,助力因材施教落地,推动教育公平与效率双提升。(238字)

热门文章

最新文章