1.回归的基本思想
回归是对一个或多个自变量和因变量之间的关系进行建模,求解的一种统计方法。很多模型都是在他的基础上建立的,任何一个复杂模型,其内部可能会隐藏着许多回归模型。
2.损失函数
损失函数的作用:
衡量模型模型预测的好坏。再简单一点说就是:损失函数就是用来表现预测与实际数据的差距程度。
①直接法
②迭代法
小批量梯度下降法的过程如下:
(a)确定求解的模型参数为α、β;
(b)定义小批量梯度下降法的损失函数;
(c)求解梯度,并定义递推关系;
(d)迭代,迭代完成输出最后的模型参数。
3.最小二乘法
定义:
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小 。
最小二乘法还可用于曲线拟合,其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
🌈🌈原理:
1.最小二乘法(也称为最小平法)是一种最优的数学方法。它是将错误的平方减到最少,并找到最优的功能。采用最小二乘方法,可以方便地求出未知数据,并使其与真实资料的平方和最小。同时,最小二乘方法也可以进行曲线拟合。其它的优化问题可以用最小二乘方法表示,即使能量最少或熵最大。
2.最小二乘多项式曲线拟合,它不需要在给定的 m个点上准确地通过,而只需要在曲线 y= f (x)上进行近似。
3.最小二乘,是求一条直线,它使得各数据点之间的距离平方和最小。所以,只需求出与其最小值相应的线性方程的参量。
4.梯度下降法
在优化问题求解时,经常会使用泰勒展开来近似代替目标函数,梯度下降法就是利用一阶泰勒展开,从而最小化损失函数的方法。
在梯度下降法中,由于每次迭代带入损失函数中样品个数的不同,我们又可将其分为:
批量梯度下降法(BGD)
小批量梯度下降法(MBGD)
随机梯度下降法(SGD)
5.泛化
①由具体的,个别的扩大为一般的;
②当某一反应与某种刺激形成条件联系后,这一反应也会与其他类似的刺激形成某种角度的条件联系,其过程称为泛化。
6.过拟合与欠拟合
过拟合:
训练集上表现好,但在测试集上表现差的现象。
欠拟合:
在训练集上表现差,但在测试集上表现好的现象。
7.MSE和RMSE
在回归分析中,最常用的评价模型的指标就是均方差MSE以及均方根误差RMSE。
均方差(MSE):标准差,是离均差平方的算数平均数(方差),用表示;
标准差是方差的算术平方根,标准差能反映一个数据集的离散程度。平均数相同的两组数据标准差未必相同。
8.MAE和MAPE
平均绝对误差MAE是将预测误差取绝对值后的平均误差,平均百分比误差MAPE则消除了因变量单位的影响,反映了误差大小的相对值。
9.正则项
在建模时,我们总是希望自己的模型能够尽量在训练集上取得较高的精度,又希望模型有好的泛化能力,这时,我们可以通过给损失函数添加正则项实现这一目标。
10.什么是聚类
聚类一直是机器学习、数据挖掘、模式识别等领域的重要组成内容。聚类是在无标记样本的条件下将数据分组,他通常被用于以下三个方面:
🌈发现数据的潜在结构
🌈对数据进行自然分组
🌈对数据进行压缩
这几个方面的功能使聚类既可以作为预处理程序,又可以作为独立的分析工具。
11.聚类的描述
数据聚类(聚类分组)的目的是在一个对象(模式、数据点)的集合中发现其自然的分组。
定义:
聚类是把一个数据对象的集合划分成簇(子集),使簇内对象彼此相似,簇间对象不相似的过程。
Kleinbreg描述了一下3个属性:
🌈尺度不变性:对于任意距离函数d和任意常数α>0,有F(d)=F(αd)
🌈划分丰富性:聚类函数F输出的数据簇划分集合包含数据所有能的簇划分结果
🌈距离一致性:令d和d'是两个距离函数,如果d'在d的基础上缩小同一簇中数据之间的距离,扩大不同簇中数据之间的距离,则F(d)=F(d')
尺度不变性是自然的要求,即聚类结果不能依赖于节点之间距离的量纲;
距离一致性要求:
若两个已经被划分到同一簇的节点变得更接近,或两个已经被划分到不同簇的节点变得更远,那么在新的距离下,聚类函数应取得和以往一致的结果。
12.聚类的分类
🚩经典算法:比如基于模型的算法,基于划分的算法,基于密度的算法,基于网格的算法,层次聚类的算法;
🚩高级算法:针对更为复杂的数据和任务开发的算法。比如谱聚类,高维数据聚类,基于非负数矩阵分解的聚类,不确定数据聚类;
🚩多源数据算法:它是针对多源相关数据开发的算法,比如:多角度聚类,多任务聚类,多任务多视角聚类,迁移聚类,多模聚类。
13.深度学习
深度学习的概念:
深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。
深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。 深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
🚀机器学习
机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数进行预测的算法,机器学习按照学习方式可以分为:
🌈监督学习
🌈无监督学习
🌈强化学习
🚀深度学习
🌈科普一下:
深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。
深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。 深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
🚀浅层学习与深度学习
🌈浅层学习:在神经网络中含有一个隐层的就叫做多层感知机,也叫神经网络,这种模型就叫做浅层模型。在这种模型中,人们可以用强于人工规则的统计学习方法。20世纪90年代,各种各样的浅层机器学习模型被提出。
🌈深层学习:不止有一层隐藏层,所以在特征的选取、隐层的确定、单层训练、回归训练等方面都有很多理论和应用难题。
14.机器学习与深度学习的差异
🌈🌈①应用场景
机器学习在指纹识别、特征物体检测等领域的应用基本达到了商业化的要求。
深度学习主要应用于文字识别、人脸技术、语义分析、智能监控等领域。目前在智能硬件、教育、医疗等行业也在快速布局。
🌈🌈②所需数据量
机器学习能够适应各种数据量,特别是数据量较小的场景。如果数据量迅速增加,那么深度学习的效果将更加突出,这是因为深度学习算法需要大量数据才能完美理解。
🌈🌈③执行时间
执行时间是指训练算法所需要的时间量。一般来说,深度学习算法需要大量时间进行训练。这是因为该算法包含有很多参数,因此训练它们需要比平时更长的时间。相对而言,机器学习算法的执行时间更少。
🌈🌈④解决问题的方法
机器学习算法遵循标准程序以解决问题。它将问题拆分成数个部分,对其进行分别解决,而后再将结果结合起来以获得所需的答案。深度学习则以集中方式解决问题,而不必进行问题拆分。