《深度学习》李宏毅 -- task2 回归

简介: Regression 就是找到一个函数 function ,通过输入特征 x,输出一个数值 Scalar。

回归定义


Regression 就是找到一个函数 function ,通过输入特征 x,输出一个数值 Scalar。


应用举例


一.股市预测(Stock market forecast)

输入:过去10年股票的变动、新闻咨询、公司并购咨询等

输出:预测股市明天的平均值

自动驾驶(Self-driving Car)

输入:无人车上的各个sensor的数据,例如路况、测出的车距等

输出:方向盘的角度

商品推荐(Recommendation)

输入:商品A的特性,商品B的特性

输出:购买商品B的可能性

Pokemon精灵攻击力预测(Combat Power of a pokemon):

输入:进化前的CP值、物种(Bulbasaur)、血量(HP)、重量(Weight)、高度(Height)

输出:进化后的CP值

模型步骤

step1:模型假设,选择模型框架(线性模型)

step2:模型评估,如何判断众多模型的好坏(损失函数)

step3:模型优化,如何筛选最优的模型(梯度下降)


二、利用回归进行预测

预测宝可梦的CP值

2.1 背景

“CP值”是一只宝可梦的战斗力。你抓到一只宝可梦“妙蛙种子”,给它吃一些糖果以后,它就会进化成“妙蛙草”,此时CP值就变了。

如果能预测一只宝可梦在进化后的CP值,你就可以评估是否需要进化,以充分利用糖果的资源,来进化更多更强的宝可梦。

操作:找一个function,输入为一只宝可梦x 的各种属性值,输出为进化后的CP值y ,如图所示。

image.png



一只宝可梦记作 x ,其属性值如下:


标记 解释

x c p x_{cp}xcp 进化前的CP值(14)

x s x_sxs 物种(妙蛙种子)

x h p x_{hp}xhp 生命值(10)

x w x_wxw 重量(11.62kg)

x h x_hxh 身高(0.88m)


2.2 如何解决这个问题呢?

上一节我们知道有三个步骤:


建模:选一个模型(function set)

评估:评价模型中function的好坏

择优:找一个最好的function


详细步骤


2.2.1 找模型(使用一次函数)

先找一个简单的 一次函数:

image.png

即进化后的CP值y等于某一个常数项b,加上某一个数值w乘以输入的宝可梦x在进化前的CP值。


w和b是参数,为任意值,取不同的数值就得到不同的function


如下图所示:

image.png

f3 显然不太可能是正确的,因为进化后CP值变负数了。 这就需要训练集来告诉我们哪些function才是合理的function。


将无穷多个w i ∗ x ii相加之和再加上b,就得到了一个 线性模型

x i 中抽取出来的各种属性值称作 “特征”(feature),当做function的输入

w i 为权重(weight),b \ 为偏置(bias)


2.2.2 评价映射的好坏

1. 收集训练集


先收集训练集,才能找这个function。这是一个监督学习的模型,需要手动给出输入和输出,本例中,它们都是数值。


举例来说,杰尼龟 能进化成 卡咪龟,用x 1 x^1x1表示杰尼龟的各种特征,用^y 1 y^1y1表示进化后的CP值979:x 1 → y 1 x^1→y^1x1→y1。其中这个979是我们实际观察到的正确数值。

c54882405279b6a5f8fe5aac3b9bea5d_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2trbTA5,size_16,color_FFFFFF,t_70.png

继续上述操作,收集更多的x i → y i x^i→y^ixi→yi。首先我们通过少量数据来进行训练,这里收集了10只宝可梦进化后的CP值,将输入作为横轴,输出作为y轴,标记在图像上:

image.png


2. 定义映射的好坏


定义另一个函数,用以评价Model中function的糟糕程度——损失函数 L LL(Loss function):


输入:一个function

输出:糟糕程度

定义:L ( f ) = L ( w , b ) L(f) = L(w, b)L(f)=L(w,b),此处使用 最小二乘法

f由w和b决定,因此损失函数实际上是用来衡量一组参数的好坏


用真正的数值减去预测的数值再取平方,就是估测的误差。再将它们相加取和就得到损失函数:

image.png

损失函数值越大,即误差越大,function效果越差。



2.2.3 找出最好的映射


根据损失函数的定义可得:找到 使损失函数值最小 的function即为最好的function。可穷举w和b,代入使得损失函数最小,但这个非常消耗时间

,显然不可接受。因此就需要一种方法来较快地寻找 —— 梯度下降法(Gradient Descent)。

image.png


梯度下降法


在高等数学中我们学过,梯度就是可微函数 f 在各个方向上求偏导数的向量( f x ′ , f y ′ , f z ′ , . . . ) (f'_x, f'_y, f'_z, ...)(fx′,fy′,fz′,...),表示某一函数在该点处的方向导数沿着该方向取得最大值。


前提:函数 L ( w ) L(w)L(w) 可微分。

做法:


随机选取一个初始点 w 0 w^0w0

做 L LL 对 w ww 在 w 0 w_0w0 处的微分,即切线的斜率

斜率为负↘,则增大w:w ww 右移 → L ( w ) L(w)L(w) 减小

斜率为正↗,则减小w:w ww 左移 → L ( w ) L(w)L(w) 减小

image.png

那么问题来了,参数值如何增加呢,该增加多少呢?


w向右走的步伐大小取决于两个条件:


现在的微分值大小:微分值越大,越陡峭,步伐越大;反之越小。

学习率(Learning rate)η:事先定好的数值,η越大,步伐越大,参数更新的幅度越大,学习的效率更快;反之越小。

image.png

注意是减号,微分正,减小w。


重复上述步骤的迭代,直到w移动到 局部最小值。

image.png

梯度下降法不能找到全局最小值,但是在 线性回归问题 中并没有局部最小,因为线性回归模型的损失函数是 凸函数(convex),局部极值必为全局极值。

【若函数可二阶导(或二阶可偏导),则可利用二阶导数(或偏导数)大于零证明】


以上是一个参数的问题,现在由一个参数推广到两个参数:

image.png

类似地,将b利用w的方法,分别计算出L对w和b的偏导数,反复迭代,求出最小的损失函数。


梯度下降法参数调整在等高线中展示效果如下:

image.png


2.3 测试训练结果


可以看到曲线拟合得并不完美,在某些点处有很大的误差,或许拟合曲线并不是一条直线。那么我们还能做的更好吗?当然,可以考虑换个更复杂的模型。

98777ff1d98915313725089d76ef9e9d_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2trbTA5,size_16,color_FFFFFF,t_70.png


2.3.1 换模型(二次函数)


y = b + w 1 ∗ x c p + w 2 ∗ ( x c p ) 2 y=b + w_1*x_{cp}+w_2*(x_{cp})^2y=b+w1∗xcp+w2∗(xcp)2

可以用上述方法找到一个最好的 function:


b = − 10.3 b = -10.3b=−10.3

w 1 = 1.0 , w 2 = 2.7 × 1 0 − 3 w_1=1.0, w_2=2.7×10^{-3}w1=1.0,w2=2.7×10−3

在训练集上的图像如下:

image.png

看起来更加合理了,且平均误差为15.4。那么在测试集上表现如何呢:

image.png

平均误差为18.4!有没有可能做得更好呢?

image.png

image.png

image.png


上图分别为三次、四次、五次函数。可以发现,到五次函数的时候已经将训练集拟合得很好了,但是测试集上误差反而更大!这种现象称为 “过拟合”(Overfitting)。


2.3.2 过拟合


如何解释这种现象呢?

image.png

如上图所示,次数越高的函数,它的解空间包含了低次数函数的解空间。因此越复杂的模型,它包含越多的函数,理论上就可以找出一个函数使得训练误差越来越低,前提是梯度下降法能真正帮我们找到最好的函数,不能出现局部最优。


但是在测试集上的结果与训练集的结果是不一样的:

image.png

在到第三个式子为止,测试集的误差一直在降低;但是越往后走,误差就暴增了!越复杂的模型并不一定得到越好的结果,这就是 过拟合。因此我们需要选择一个合适的模型。


2.4 收集大量数据来训练测试

现在我们收集60只宝可梦,把原来和进化后的CP值作图(如下图所示),会发现右上角几个点被某种“隐藏力量”影响了。这到底是什么呢?答案就是物种。

image.png


隐藏因素


我们将不同的物种用不同的颜色表示

image.png

只考虑进化前的CP值是远远不够的,还要考虑物种对进化的影响,因此需要重新设计模型:不同的物种就代入不同的线性函数。

image.png


但是把 if 放在 function 里面,这样不就不是一个线性模型了吗?后续还能对损失函数进行微分、用梯度下降法吗?


可以把上述式子改写成 一个 线性函数:

image.png

通过控制δ函数的值,来控制函数的结构,具体如下:

image.png


那么对于更换后的模型,它的结果怎么样呢?

image.png


对于不同的物种,线的颜色不一样。当分不同的种类来考虑时,所预测的误差比原来的模型误差更小。

image.png

但这里还是有不能拟合得很好的点,还有其他可能的因素影响着模型预测结果。



可以把所有因素加入模型,看看结果如何:

image.png


可以看到又是过拟合了。怎么办呢?使用 正则化 (Regularization)


我们重新定义损失函数,加入一些辅助的额外项λ,让我们找到比较好的function。其中,λ项越趋于0越好:

image.png


这里不需要考虑 bais 这一项。因为我们要找一个平滑的function,调整b的大小只是将函数图像上下移动而已,和平滑程度并无关系。


当我们加上λ项时,就说这个function是比较 平滑的(smooth) ——当输入有变化时,输出对输入的变化是比较 不敏感 的。


假设模型为一次函数模型,在某一个 x i x_ixi 加上一个 Δ x i \Delta x_iΔxi,即:

y = b + Σ w i x i + Δ x i y = b + {\Sigma}w_ix_i + \Delta x_iy=b+Σwixi+Δxi

这个时候输出的变化:

y → y + w i Δ x i y→y+w_i \Delta x_iy→y+wiΔxi

当w i w_iwi越接近0,输出的变化就越小,也即输出对输入的变化不敏感。


为什么我们喜欢比较平滑的 function ?


假设我们的输入在测试的时候被噪声干扰了,那么一个比较平滑的function就能受到比较小的影响,从而给出一个好的结果。

实验结果

image.png

λ值越大,代表考虑平滑项的影响力越大,找到的function就越平滑。

当λ值越大时,在测试集上的误差就越大,因为这时就越倾向于考虑 w ww 的数值,而减小考虑训练的误差。

有趣的是,在训练集上得到的误差越大,在测试集上得到的误差是可能比较小的。我们喜欢平滑的function,但不喜欢太平滑的function。

如何找出function有多平滑呢?

这就需要我们调λ的值来决定平滑程度

如上图,选择λ = 100,在测试集上的误差最小。


总结


宝可梦进化前的CP值和进化后的CP值,以及它是哪个物种是非常有关系的,也可能会有其他的因素

梯度下降法的原理和技巧

过拟合和正则化

我们最后得到测试集的平均误差结果是11.1。但是如果用于其他的数据集来预测,得到的误差会是怎样的?


目录
相关文章
|
机器学习/深度学习 运维 安全
异常检测|深度学习(李宏毅)(二十一)
异常检测|深度学习(李宏毅)(二十一)
890 0
异常检测|深度学习(李宏毅)(二十一)
|
机器学习/深度学习 算法 语音技术
李宏毅2021春季机器学习课程视频笔记2:(选修)深度学习简介,反向传播
李宏毅2021春季机器学习课程视频笔记2:(选修)深度学习简介,反向传播
李宏毅2021春季机器学习课程视频笔记2:(选修)深度学习简介,反向传播
|
机器学习/深度学习
《深度学习》李宏毅 -- task7总结
进一步学习机器学习基础,希望以后有机会多多实践,为以后进入这个领域做准备。
99 0
《深度学习》李宏毅 -- task7总结
|
机器学习/深度学习
《深度学习》李宏毅 -- task6卷积神经网络
CNN常常被用在影像处理上,比如说你想要做影像的分类,就是training一个neural network,input一张图片,然后把这张图片表示成里面的像素(pixel),也就是很长很长的矢量(vector)。output就是(假如你有1000个类别,output就是1000个dimension)dimension。
111 0
《深度学习》李宏毅 -- task6卷积神经网络
|
机器学习/深度学习
《深度学习》李宏毅 -- task5网络技巧设计
局部最小值saddle point和鞍点local minima
96 0
《深度学习》李宏毅 -- task5网络技巧设计
|
机器学习/深度学习
《深度学习》李宏毅 -- task4深度学习介绍和反向传播机制
Step1:神经网络(Neural network) Step2:模型评估(Goodness of function) Step3:选择最优函数(Pick best function)
104 0
《深度学习》李宏毅 -- task4深度学习介绍和反向传播机制
|
机器学习/深度学习 数据挖掘 Go
《深度学习》李宏毅 -- task1机器学习介绍
机器学习(Machine Learning),就是让机器自动找函数。如语音识别,就是让机器找一个函数,输入是声音信号,输出是对应的文字。如下棋,就是让机器找一个函数,输入是当前棋盘上黑子白子的位置,输出是下一步应该落子何处。
124 0
《深度学习》李宏毅 -- task1机器学习介绍
|
机器学习/深度学习 数据可视化 数据库
无监督学习-自编码器|深度学习(李宏毅)(十九)
无监督学习-自编码器|深度学习(李宏毅)(十九)
868 0
无监督学习-自编码器|深度学习(李宏毅)(十九)
|
机器学习/深度学习 TensorFlow 算法框架/工具
循环神经网络|深度学习(李宏毅)(五)
循环神经网络|深度学习(李宏毅)(五)
138 1
循环神经网络|深度学习(李宏毅)(五)
|
机器学习/深度学习 算法 计算机视觉
生成对抗网络-条件生成|深度学习(李宏毅)(二十五)
生成对抗网络-条件生成|深度学习(李宏毅)(二十五)
321 0
生成对抗网络-条件生成|深度学习(李宏毅)(二十五)