【人工智能】<吴恩达-机器学习>批量梯度下降&矩阵和向量运算概述

简介: 【1月更文挑战第26天】【人工智能】<吴恩达-机器学习>批量梯度下降&矩阵和向量运算概述

 目录

一、Gradient descent for liner regression - 线性回归:

1.线性回归的梯度下降法:

2."Batch" Gradient Descent - 批量梯度下降法:

二、Matrices and Vectors - 矩阵和向量:

1.Matrix:

2.Vector:

三、矩阵&向量运算:

1.Addition and scalar multiplication - 加法和标量乘法:

2.Matrix - Vector multiplication - 矩阵&向量乘法:

3.Matrix-Matrix multiplication - 矩阵&矩阵乘法:

4.Matrix multiplication properties - 矩阵特性:

5.特殊矩阵:

6.Inverse and transpose - 矩阵逆运算&转置:

矩阵的逆:

矩阵的转置:


一、Gradient descent for liner regression - 线性回归:

image.gif编辑

我们通过使用Gradient descent algorithm(梯度下降算法)来使得J()(损失函数)最小化或局部最小化。

1.线性回归的梯度下降法:

image.gif编辑

不断重复进行迭代计算,直到最终结果收敛!

注意:Update and simultaneously

数学推导:

image.gif编辑

Convex Function:

image.gif编辑

类似于这样的回归则会有全局且是唯一的最优解。

image.gif编辑

2."Batch" Gradient Descent - 批量梯度下降法:

       "Batch": Each step of gredient descent uses all the training examples.

       梯度下降算法需要对损失函数求梯度,也就是求导。

       批量梯度下降法是最原始的形式,它的具体思路是在更新每一参数时都使用所有的样本来进行梯度的更新。

       对损失函数求偏导(对 求偏导):

image.gif编辑

       更新值:

image.gif编辑

       不断重复这一步直到算法收敛,也就是对参数不断更新,直到梯度为0。但是,我们的每次迭代更新,都要对所有的m个样本数据进行求和。

       如何检测是否已经收敛了呢?

    • 一种是检验两次迭代,如果两次迭代中,是否改变了很多,如果在两次迭代中没怎么改变,我们或许就可以说算法有可能收敛了。
    • 另一种,更常用的方法是,检验的值,如果你试图最小化的量不再发生很大的改变时,你也许就可以认为它收敛了。

    优点:

      • 一次迭代是对所有样本进行计算,此时利用矩阵进行运算,实现了并行。
      • 由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。当目标函数为凸函数时,批量梯度下降一定能够得到全局最优解。

      缺点:

        • 有时我们会遇到样本数目 m 很大的训练集合,如果有几十上百万,甚至上亿的训练样本。这意味着我们每执行一次批梯度下降算法,都要对m个样本进行求和。我们的程序也就需要检测这上百万的样本,甚至我们完成值下降的第一步都十分困难。这样会导致,训练过程很慢,花费很长的时间。

        二、Matrices and Vectors - 矩阵和向量:

        1.Matrix:

        Matrix: Rectangular array of numbers:

        image.gif编辑

        Dimension of matrix: number of rows x number of cloumns

        2.Vector:

        image.gif编辑


        三、矩阵&向量运算:

        1.Addition and scalar multiplication - 加法和标量乘法:

        Matrix Additon: 对应位置上的元素进行直接相加减(只有同型矩阵才能进行该运算)。

        Scalar Multiplication: 常数乘除上矩阵响应位置上的元素,结果所得到的矩阵型式不变。

        2.Matrix - Vector multiplication - 矩阵&向量乘法:

        image.gif编辑

        3.Matrix-Matrix multiplication - 矩阵&矩阵乘法:

        image.gif编辑

        image.gif编辑

        4.Matrix multiplication properties - 矩阵特性:

        image.gif编辑

        矩阵&矩阵间的乘法:不满足乘法交换律,满足乘法结合率!

        5.特殊矩阵:

        image.gif编辑

        image.gif编辑

        单位矩阵和任何可乘的矩阵相乘,仍然等于该矩阵!

        6.Inverse and transpose - 矩阵逆运算&转置:

        矩阵的逆:

        Not all numbers have an inverse.

        image.gif编辑

        矩阵和该矩阵的逆相乘等于单位矩阵!

        image.gif编辑

        矩阵的转置:

        image.gif编辑

        image.gif编辑


        相关文章
        |
        8月前
        |
        机器学习/深度学习 运维 算法
        Machine Learning机器学习之向量机(Support Vector Machine,SVM)
        Machine Learning机器学习之向量机(Support Vector Machine,SVM)
        |
        5月前
        |
        人工智能 自然语言处理 算法
        【人工智能】TF-IDF算法概述
        TF-IDF算法,全称Term Frequency-Inverse Document Frequency(词频-逆文档频率),是一种在信息检索和文本挖掘领域广泛应用的加权技术。它通过评估一个词语在文档中的重要程度,来挖掘文章中的关键词,进而用于文本分析、搜索引擎优化等场景。其核心思想是:如果某个词或短语在一篇文章中出现的频率高(TF高),且在其他文章中很少出现(IDF也高),则认为这个词或短语具有很好的类别区分能力,适合用来代表这篇文章的内容。 具体而言,TF-IDF由两部分组成,即词频(TF)和逆文档频率(IDF)。词频(TF)指的是某一个给定的词在该文件中出现的频率。这个数值通常会被归一化
        122 3
        |
        5月前
        |
        机器学习/深度学习 人工智能 并行计算
        【人工智能】CPU、GPU与TPU:人工智能领域的核心处理器概述
        在人工智能和计算技术的快速发展中,CPU(中央处理器)、GPU(图形处理器)和TPU(张量处理器)作为核心处理器,各自扮演着不可或缺的角色。它们不仅在性能上各有千秋,还在不同的应用场景中发挥着重要作用
        279 2
        |
        5月前
        |
        机器学习/深度学习 人工智能 算法
        【人工智能】传统语音识别算法概述,应用场景,项目实践及案例分析,附带代码示例
        传统语音识别算法是将语音信号转化为文本形式的技术,它主要基于模式识别理论和数学统计学方法。以下是传统语音识别算法的基本概述
        130 2
        |
        5月前
        |
        机器学习/深度学习 人工智能 搜索推荐
        【人工智能】人工智能在医疗健康中的应用以及实际案例和进展概述
        人工智能(Artificial Intelligence, AI)在医疗健康领域的应用日益广泛,为医疗服务的提升和健康管理带来了革命性的变化。以下是人工智能在医疗健康中的主要应用
        1402 1
        |
        5月前
        |
        机器学习/深度学习 人工智能 自然语言处理
        【人工智能】常用的人工智能框架、模型、使用方法、应用场景以及代码实例的概述
        人工智能(AI)领域涉及众多框架和模型,这些框架和模型为开发人员提供了强大的工具,以构建和训练各种AI应用。以下是一些常用的人工智能框架、模型、使用方法、应用场景以及代码实例的概述。
        395 1
        |
        5月前
        |
        机器学习/深度学习 人工智能 自然语言处理
        【人工智能】Transformers之Pipeline(概述):30w+大模型极简应用
        【人工智能】Transformers之Pipeline(概述):30w+大模型极简应用
        119 1
        |
        5月前
        |
        机器学习/深度学习 算法 TensorFlow
        【人工智能】TensorFlow和机器学习概述
        TensorFlow的性能优化将是持续的工作重点。这包括更高效的GPU和TPU支持、更快速的模型训练与推理、以及优化的内存使用。同时,随着硬件的发展,TensorFlow将不断优化其代码库以充分利用新型硬件的能力。
        40 0
        |
        7月前
        |
        机器学习/深度学习 人工智能 自然语言处理
        人工智能之原理概述
        人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等
        65 1
        |
        8月前
        |
        机器学习/深度学习 数据采集 分布式计算
        【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分
        标准化Scaler是数据预处理技术,用于将特征值映射到均值0、方差1的标准正态分布,以消除不同尺度特征的影响,提升模型稳定性和精度。Spark ML中的StandardScaler实现此功能,通过`.setInputCol`、`.setOutputCol`等方法配置并应用到DataFrame数据。示例展示了如何在Spark中使用StandardScaler进行数据规范化,包括创建SparkSession,构建DataFrame,使用VectorAssembler和StandardScaler,以及将向量拆分为列。规范化有助于降低特征重要性,提高模型训练速度和计算效率。
        168 6
        下一篇
        开通oss服务