Andrew Ng机器学习课程笔记--week10(优化梯度下降)

简介: 本周主要介绍了梯度下降算法运用到大数据时的优化方法。一、内容概要Gradient Descent with Large DatasetsStochastic Gradient DescentMini-Batch Gradient DescentStochastic Gradient ...

本周主要介绍了梯度下降算法运用到大数据时的优化方法。

一、内容概要

  • Gradient Descent with Large Datasets
    • Stochastic Gradient Descent
    • Mini-Batch Gradient Descent
    • Stochastic Gradient Descent Convergence
  • Advanced Topics
    • Online Learning
    • Map Reduce and Data Parallelism(映射化简和数据并行)

二、重点&难点

Gradient Descent with Large Datasets

1) Batch gradient descent

首先回顾一下普通梯度下降算法:,也叫批量梯度下降算法

hθ(x)=nj=1θjxj


J(θ)=12mmi=1(hθ(x(i))y(i))2

Repeat until convergence{
θj=θjαJ(θ)θj=θjα1mmi=1(hθ(x(i))y(i))x(i)jj=1,2...,n


}

1)Stochastic Gradient Descent

将计算大数据时,即m很大的情况下,上面 (1.32) 式右边有一个 Σ(累加) 符号,每一次迭代显然会耗费大量的时间。所以提出了随机梯度下降算法进行改进。

cost(θ,(x(i),y(i)))=12(hθ(x(i))y(i))2


J(θ)=1mmi=1cost(θ,(x(i),y(i)))

步骤如下:

  • 1.打乱数据,重新随机排列
  • 2.Repeat until convergence{
    θj=θjαcost(θ,(x(i),y(i)))θj=θjα(hθ(x(i))y(i))x(i)jj=1,2...,n

    }


如图示,因为每次只更新一个权重,所以相比于批量梯度下降的收敛路线,随机梯度下降要更加崎岖迂回一些。而且每次收敛的结果也不一定相等。

因此算法虽然会逐渐走向全局最小值的位置,但是可能无法站到那个最小值的那一点,而是在最小值点附近徘徊。

2)Mini-Batch Gradient Descent

上面的随机梯度下降的收敛过程显得比较任性,所以综合前面提到的两种梯度算法的优点提出了小批量梯度下降算法,即每次考虑一小批量的数据来更新权重,算法如下:

假设总共有m个数据,每次迭代使用b个数据进行更新

  • i初始化为1
  • Repeat until convergence {
       while(i≤m)
        {
            θj=θjα1mi+(b1)k=i(hθ(x(k))y(k))x(k)jj=1,2...,n
        }
        i += b;
    }

通常我们会令 b 在 2-100 之间。这样做的好处在于,我们可以用向量化的方式来循环b 个训练实例,如果我们用的线性代数函数库比较好,能够支持平行处理,那么算法的总体表现将不受影响(与随机梯度下降相同)。

3)Stochastic Gradient Descent Convergence

本节介绍了令代价函数 J 为迭代次数的函数,绘制图表,根据图表来判断梯度下降是否收敛,并根据收敛趋势进行调试。

常见有如下四种情况:

  • 左上
    • 蓝色:表示最开始的迭代情况,可以看出是收敛的,但是数据有毛刺(噪声),而且不是很光滑。
    • 红色降低学习速率α后噪音减少,是收敛效果更好
  • 右上
    • 蓝色:数据集为1000的时候所绘制的,可以看到本身的收敛还是不错的。
    • 红色:将数据增加到5000后收敛更加平缓。(增加数据
  • 左下
    • 蓝色:最开始的收敛非常糟糕,几乎不收敛
    • 红色:增加数据后,开始收敛,但是收敛效果不好
    • 粉色:降低α后,也几乎不收敛,所以此时可以推测是模型本身有问题,需要重新建立。
  • 右下
    • 模型呈现上升趋势,可能是学习速率α过大导致,可以尝试减小α。我们也可以让学习速率随着迭代次数增加而减小,如α=C1+C2。但是也这样有个缺陷就是你还需要不断的尝试两个参数,即两个常数,所以虽然效果可能会不错,但是调试起来会比较麻烦。

自适应α

Advanced Topics

1)Online Learning

在线学习算法适用于有一系列连续的数据需要学习的情况。有点类似于随机梯度下降算法,每次使用一个数据来更新权重。比如说常用的网易云音乐,可能根据用户实时的点击、收藏等行为在线学习,从而更加符合用户时常变换的口味。
更准确的说在线学习算法指的是对数据流而非离线的静态数据集的学习。许多在线网站都有持续不断的用户流,对于每一个用户,网站希望能在不将数据存储到数据库中便顺利地进行算法学习。

算法如下:

Repeat forever(直到网站倒闭233){
   获取当前用户的数据(x,y)
      θj:=θjα(hθ(x)y)xj(for j in range(n))
}

一旦对一个数据的学习完成了,我们便可以丢弃该数据,不需要再存储它了。这种方式的好处在于,我们的算法可以很好的适应用户的倾向性,算法可以针对用户的当前行为不断地更新模型以适应该用户。

大公司会获取非常多的数据,真的没有必要来保存一个固定的数据集,取而代之的是你可以使用一个在线学习算法来连续的学习,从这些用户不断产生的数据中来学习。这就是在线学习机制,然后就像我们所看到的,我们所使用的这个算法与随机梯度下降算法非常类似,唯一的区别的是,我们不会使用一个固定的数据集,我们会做的是获取一个用户样本,从那个样本中学习,然后丢弃那个样本并继续下去,而且如果你对某一种应用有一个连续的数据流,这样的算法可能会非常值得考虑。当然,在线学习的一个优点就是,如果你有一个变化的用户群,又或者你在尝试预测的事情,在缓慢变化,就像你的用户的品味在缓慢变化,这个在线学习算法,可以慢慢地调试你所学习到的假设,将其调节更新到最新的用户行为。

2)Map Reduce and Data Parallelism(映射化简和数据并行)

这节课的内容应该可以理解成分布式计算,即把一个计算任务分配给若干个计算机(或者若干个CPU)进行计算,最后将结果汇总在一起计算,这样就可以提高计算速度。以上就是映射简化(map reduce)







MARSGGBO原创





2017-8-15



目录
打赏
0
0
0
0
11
分享
相关文章
实战派教学:掌握Scikit-learn,轻松实现数据分析与机器学习模型优化!
【10月更文挑战第4天】Scikit-learn凭借高效、易用及全面性成为数据科学领域的首选工具,简化了数据预处理、模型训练与评估流程,并提供丰富算法库。本文通过实战教学,详细介绍Scikit-learn的基础入门、数据预处理、模型选择与训练、评估及调优等关键步骤,助你快速掌握并优化数据分析与机器学习模型。从环境搭建到参数调优,每一步都配有示例代码,便于理解和实践。
167 2
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
421 13
机器学习算法的优化与改进:提升模型性能的策略与方法
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本
Transformer架构自2017年被Vaswani等人提出以来,凭借其核心的注意力机制,已成为AI领域的重大突破。该机制允许模型根据任务需求灵活聚焦于输入的不同部分,极大地增强了对复杂语言和结构的理解能力。起初主要应用于自然语言处理,Transformer迅速扩展至语音识别、计算机视觉等多领域,展现出强大的跨学科应用潜力。然而,随着模型规模的增长,注意力层的高计算复杂度成为发展瓶颈。为此,本文探讨了在PyTorch生态系统中优化注意力层的各种技术,
188 6
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本
|
3月前
|
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
121 2
分布式机器学习系统:设计原理、优化策略与实践经验
本文详细探讨了分布式机器学习系统的发展现状与挑战,重点分析了数据并行、模型并行等核心训练范式,以及参数服务器、优化器等关键组件的设计与实现。文章还深入讨论了混合精度训练、梯度累积、ZeRO优化器等高级特性,旨在提供一套全面的技术解决方案,以应对超大规模模型训练中的计算、存储及通信挑战。
164 4
机器学习中模型选择和优化的关键技术——交叉验证与网格搜索
本文深入探讨了机器学习中模型选择和优化的关键技术——交叉验证与网格搜索。介绍了K折交叉验证、留一交叉验证等方法,以及网格搜索的原理和步骤,展示了如何结合两者在Python中实现模型参数的优化,并强调了使用时需注意的计算成本、过拟合风险等问题。
156 6
基于TensorFlow的深度学习模型训练与优化实战
基于TensorFlow的深度学习模型训练与优化实战
188 3
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
因果推断方法为特征工程提供了一个更深层次的框架,使我们能够区分真正的因果关系和简单的统计相关性。这种方法在需要理解干预效果的领域尤为重要,如经济学、医学和市场营销。
171 1
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
利用机器学习优化Web性能和用户体验
【10月更文挑战第16天】本文探讨了如何利用机器学习技术优化Web性能和用户体验。通过分析用户行为和性能数据,机器学习可以实现动态资源优化、预测性缓存、性能瓶颈检测和自适应用户体验。文章还介绍了实施步骤和实战技巧,帮助开发者更有效地提升Web应用的速度和用户满意度。
“探秘机器学习的幕后英雄:梯度下降——如何在数据的海洋中寻找那枚失落的钥匙?”
【10月更文挑战第11天】梯度下降是机器学习和深度学习中的核心优化算法,用于最小化损失函数,找到最优参数。通过计算损失函数的梯度,算法沿着负梯度方向更新参数,逐步逼近最小值。常见的变种包括批量梯度下降、随机梯度下降和小批量梯度下降,各有优缺点。示例代码展示了如何用Python和NumPy实现简单的线性回归模型训练。掌握梯度下降有助于深入理解模型优化机制。
65 2

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等