神经网络学习规则|学习笔记

简介: 快速学习神经网络学习规则

开发者学堂课程【神经网络概览及算法详解神经网络学习规则】学习笔记与课程紧密联系,让用户快速学习知识

课程地址https://developer.aliyun.com/learning/course/40/detail/921


神经网络学习规则

 

连续感知器学习规则:δ规则

Delta 学习规则(δ Learning Rule ):1986年,由认知心理学家 McCleland 和 Rumelhart 在神经网络训练中引入了学习规则。一种简单的有导师学习算法,该算法根据神经元的实际输出与期望输出差别来调整连接权。

Delta 学习规则的思路如下:系统首先用一个输入向量,输入网络结构,得到一个输出向量;每个输入向量都有一个对应的期望输出向量、或者称作是目标向量;比较实际输出向量与期望输出向量的差别,若没有差别,就不再继续学习;否则,连接的权重修改对应的差值( delta 差)

image.png

1.损失函数

损失函数( Loss Function ):用于衡量最优的策略,通常是一个非负实值函数。机器学习试图通过不断的学习,建立一个可以很好预测现实结果的模型,损失函数则是用来衡量预测结果和真实结果之间的差距,其值越小,代表预测结果和真实结果越一致。损失函数越合适,通常模型的性能越好。通过各种方式缩小损失函数的过程被称作优化。损失函数记做 L ( Y , f (×))。不同的损失函数可以衡量不同模型的这个最终效果了。比如常见的有这种零一损失函数。

(1)0-1损失函数(0-1 LF ):预测值和实际值精确相等则“没有损失”为0,否则意味着“完全损失”,为1预测值和实际值精确相等有些过于严格,可以采用两者的差小于某个阈值的方式。

对于相同的预测结果,两个损失函数严格程度不同。

image.png

对于相同的预测结果,两个损失函数严格程度不同。设 T =0.5,则有:

image.png

我们通常也可以使用两者的差小于某个这个预值的方式。这是严格的方式,上边边是小于某个阈值,假如说如果两个值的差小于一个数啊。我们就把它认为是理由就是精确,就是没有损失。如果是大于这个数,我们认为它是有损失的。

如果是一个y值是实际值,那fx是预期期望输出那y是实际输出。那对L来讲就是精确匹配呢,就是严格要求的L ( Y , f (×))来讲,比如说我的阈值是0.5。那意味着说实际输出和我期输出的差的绝对值小于0.5的话,就认为没损失大于零点五,认为有损失。那对L来讲,严格的来讲的话,两个不严格相等就认为有损失

(2)绝对值损失函数( Absolute LF ):预测结果与真实结果差的绝对值。简单易懂,但是计算不方便。公式如下:

L ( Y , f ( X )= IY - f ( X ) I

(3)平方损失函数( Quadratic LF ):预测结果与真实结果差的平方。其公式如下:

L ( Y , f ( X )=( Y - f ( X ))

相较于绝对值损失函数,平方损失函数优势有:

①每个样本的误差都是正的,累加不会被抵消说什名亜万对于大误差的惩罚大于小误差

②数学计算简单、友好,导数为一次函数

(4)折叶损失函数( Hinge LF ):也称铰链损失,对于判定边界附近的点的惩罚力度较高,常见于 SVM,其公式如下:

L ( f ( x ))=тах(0,1-f( x ))

不同的损失函数有不同的特点,适用于不同的场景:

image.png

①0-1:理想状况模型

②Log :逻辑回归、交又熵

③Squared :线性回归

④Exponential : AdaBoosting

⑤Hinge : SVM 、soft margin

2.损失函数优化:梯度下降法

梯度( Gradient ):是一个向量,表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向变化最快,变化率最大。

梯度下降法( Gradient Descent ):一种最优化算法,也称为最速下降法。沿着负梯度方向去减小函数值从而接近目标值

image.png

确定了损失函数,就需要对损失函数进行优化,求最小值,以平方损失函数( Quadratic LF )为例:

L ( y . f ( x ))=1/2(y- f ( x ))

求 L 的梯度:

image.png

假设激活函数选用了sigmoid 函数 image.png,求出此时 L 的梯度:

image.png

2.δ规则

(1)δ规则的学习信号为:

image.png

(2) δ规则的推导:由输出值与期望输出值的最小二次方误差条件,推导δ规则输出值与期望输出值的二次方误差为:

image.png

(3) 学习的目的就是为了让实际输出值与期望输出值的差最小,即求使 E 最小的权值 W 。

根据之前的损失函数和梯度、梯度下降法可以知道, w 沿着梯度的负方向(最小值)按照步长 η(学习速率)变化,会快速逼近最小值,即有:

image.png

相关文章
|
12天前
|
存储 算法 Windows
课程视频|R语言bnlearn包:贝叶斯网络的构造及参数学习的原理和实例(下)
课程视频|R语言bnlearn包:贝叶斯网络的构造及参数学习的原理和实例
|
12天前
|
算法 数据可视化 数据挖掘
课程视频|R语言bnlearn包:贝叶斯网络的构造及参数学习的原理和实例(上)
课程视频|R语言bnlearn包:贝叶斯网络的构造及参数学习的原理和实例
|
1天前
|
机器学习/深度学习 存储 自然语言处理
【威胁情报挖掘-论文阅读】学习图表绘制 基于多实例学习的网络行为提取 SeqMask: Behavior Extraction Over Cyber Threat Intelligence
【威胁情报挖掘-论文阅读】学习图表绘制 基于多实例学习的网络行为提取 SeqMask: Behavior Extraction Over Cyber Threat Intelligence
6 0
|
2天前
|
网络协议 网络架构 数据格式
计算机网络学习笔记(一)
OSI七层网络模型旨在支持异构网络互联,从下到上分别为物理层(传输比特流)、数据链路层(帧传输,如交换机)、网络层(IP数据包路由,如路由器)、传输层(TCP/UDP,端到端通信)、会话层(管理会话)、表示层(数据格式转换)和应用层(用户接口,如FTP, SMTP)。每一层负责不同的通信功能,并通过协议如PPP, IP, TCP等协同工作。
|
2天前
|
缓存 网络协议 开发者
计算机网络学习笔记(三)
TCP的异常终止使用reset报文,用于强制关闭连接,不等待正常四次挥手。RST标志位设置时,发送方直接丢弃缓存,接收方无需确认。常见情况包括:尝试连接服务器未开放的端口、一方异常崩溃、收到不属于现有连接的报文、超时未收到确认报文或应用开发者优化效率。reset报文帮助释放资源,防止连接挂起。
|
2天前
|
安全 数据安全/隐私保护
计算机网络学习笔记(四)
HTTPS流程涉及服务器的公钥/私钥和客户端随机密钥。首先,客户端向服务器443端口发起请求,服务器发送公钥给客户端。客户端验证公钥后生成随机密钥(client key),用公钥加密后发送回服务器。服务器用私钥解密获取client key,然后用它加密数据成密文传回客户端。客户端用client key解密完成安全传输。
|
11天前
|
Kubernetes API 调度
|
12天前
|
前端开发 数据挖掘 数据建模
课程视频|R语言bnlearn包:贝叶斯网络的构造及参数学习的原理和实例(中)
课程视频|R语言bnlearn包:贝叶斯网络的构造及参数学习的原理和实例
|
13天前
|
机器学习/深度学习
GAN网络的代码实现(学习ing)
GAN网络的代码实现(学习ing)
|
13天前
|
运维 监控 安全
【专栏】11 个 Linux 网络命令学习和熟练运用这些命令是提升网络管理能力的基础
【4月更文挑战第28天】本文介绍了11个必备的Linux网络命令,包括ifconfig、ip、ping、traceroute、netstat、tcpdump、ss、telnet、ftp、ssh和nmap,这些命令在网络配置、故障排查和性能监控中发挥关键作用。通过实例分析,强调了它们在实际工作中的综合应用,帮助运维工程师提升效率和应对网络挑战。学习和熟练运用这些命令是提升网络管理能力的基础。

热门文章

最新文章