Python机器学习算法入门之简单感知器学习算法

简介:

问题背景

考虑一个问题:现在我们有一些过往核发信用卡的资料,包括用户个人信息和审核结果。根据这些资料,我们希望预测能不能给下一个用户发信用卡。用户基本信息如下:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

这些基本信息组成了一个向量640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=。不同的信息有不同的权重,设权重向量640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=。我们希望构造一个函数来给用户的信用打分,并且,如果信用分超过了某个阈值,我们就认为这个客户是可靠的,可以给他发信用卡:

8481c8f592b7f349aa84a1de5c171db681516edf能发: 640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
8481c8f592b7f349aa84a1de5c171db681516edf不能: 640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

通过阶跃函数640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=,进一步将这个过程函数化:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

所以,当640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=,通过;当640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=,拒绝;当640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=,忽略。

其中: 

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

整理该方程如下: 

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

具体到二维空间

简化上面的问题,假设用户只有两个属性,就可以用二维空间的一个点来表示一个用户。如下所示,蓝圈表示通过,红叉表示拒绝。注意到直线的两边,一边大于0,一边小于0,也就是一边都是蓝圈,一边都是红叉。所以现在的目标就是,找到一条直线640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=,可以将已知的蓝圈和红叉完美区分开。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

基础知识回顾

简单回顾一下线性代数的知识。一条直线可以由一个点640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=和法向量 640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=唯一确定。其点法式方程为:640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=。相应地,其方向向量为:640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


感知机学习算法

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

简单感知机算法(Perceptron Learning Algorithm,PLA)的思路很简单,首先随便找一条直线,然后遍历每一个已知点,如果正确,则跳过;如果错误,则利用这个点的信息对直线进行修正。修正的思路如上图所示:640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=是直线640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=的法向量。640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=是错误点的方向向量,640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=是真实值。具体情况可分为如下两种情况:

情况一:640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

为了将这个出错的点包括进紫色区域,640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=应该靠近640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=方向。因此,640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

情况二:640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

为了将这个出错的点排除出紫色区域,640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=应该远离640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=方向。因此,

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

综上,得到修正函数:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


证明:PLA校正的正确性

那么为什么感知机算法可以逐步接近正确呢?

已知640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

两边同时乘上640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=,得:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

因为640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=,所以:640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

注意到640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=恰好就是我们给出的当前用户的分数。当640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=,也就是我们打分打低了,修正后分数上升;当640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=,也就是我们打分打高了,修正后分数下降。这个结论说明,对于640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=这组错误数据,经过修正以后,我们打出的分数更靠近正确结果了。

证明:PLA终止的充分条件

从算法的规则上可以看出,PLA终止的必要条件是数据集中确定存在一条直线,可以将蓝圈和红叉分开,也就是线性可分: 

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

现在证明,线性可分是PLA终止的充分条件。

(1) 设640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=表示第t次更新时的点,一共更新了n次。若线性可分,则必然存在一条完美的直线640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=,使得对640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=,有640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=。也就是:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=为向量内积,也就是640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=)又由640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=的更新规则得: 

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

因此: 

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

综上,得到: 

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

初始时640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=,所以: 

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

(2) 因为每次遇到错误的数据才会更新,也就是640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=。其中是第t次更新时的权重值。因此: 

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

类似于(1),得到: 

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

(3) 综上,得:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=是一个常数,因此,随着t的增大,640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=也逐步增大,也就是向量640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=的夹角逐渐减小,640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=逐渐接近640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=。 
又因为:
640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=,所以640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=。因此,PLA算法必然收敛。

Linear Pocket Algorithm

上述PLA算法的前提是数据集线性可分。但是很明显,在分类之前我们不可能知道我们手里的数据是不是线性可分的。更何况,数据集可能有噪声(noise),这些噪声是之前的经验中错误的分类结果,这些噪声将导致PLA无法收敛。因此,我们的目标就从找到一条完美划分数据集的640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=,变成了找到一条最接近完美640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=,使得错误的点最少。这个转变使得我们可以理非线性可分的数据集 :

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
但是很遗憾的是,寻找 640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy= 是一个NP-hard问题。

因此问题又从“寻找最接近完美的640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=变成了“寻找尽可能完美的640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=。Pocket Algorithm是PLA的变形,用于处理此类问题。算法如下: 

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

与简单PLA不同的是:

8481c8f592b7f349aa84a1de5c171db681516edf Pocket Algorithm事先设定迭代次数,而不是等算法自己收敛;
8481c8f592b7f349aa84a1de5c171db681516edf 随机遍历数据集,而不是循环遍历;

8481c8f592b7f349aa84a1de5c171db681516edf遇到错误点校正640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=时,只有当新得到的640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=优于640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=(也就是错误更少)时才更新640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=。因为Pocket要比较错误率,需要计算所有的数据点,因此效率要低于PLA。

8481c8f592b7f349aa84a1de5c171db681516edf如果数据集巧合是线性可分的,只要迭代次数够多,Pocket和PLA的效果是一样的,只是速度慢。

实践

讲了这么多理论知识,现在用python实践一下这个算法。简单起见,这里已知数据集是线性可分的,直接采用简单PLA就可以解决。核心代码不到20行,只需要理解train()函数即可,其它部分都是为了把这个图画出来。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

运行效果如下: 

0?wx_fmt=gif&tp=webp&wxfrom=5&wx_lazy=1

原文发布时间为:2017-02-19 

本文作者:ZZR

本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号

相关文章
|
2天前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
24 1
|
1天前
|
机器学习/深度学习 算法 搜索推荐
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
28 12
|
6天前
|
机器学习/深度学习 数据可视化 数据挖掘
《Python 简易速速上手小册》第9章:数据科学和机器学习入门(2024 最新版)
《Python 简易速速上手小册》第9章:数据科学和机器学习入门(2024 最新版)
19 1
|
7天前
|
算法 数据可视化 Python
Python贝叶斯推断Metropolis-Hastings(M-H)MCMC采样算法的实现
Python贝叶斯推断Metropolis-Hastings(M-H)MCMC采样算法的实现
11 0
|
7天前
|
机器学习/深度学习 存储 算法
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
29 7
|
7天前
|
算法 数据可视化 Python
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
13 0
|
8天前
|
机器学习/深度学习 算法 Python
使用Python实现集成学习算法:Bagging与Boosting
使用Python实现集成学习算法:Bagging与Boosting
18 0
|
9天前
|
缓存 算法 Python
python算法对音频信号处理Sonification :Gauss-Seidel迭代算法
python算法对音频信号处理Sonification :Gauss-Seidel迭代算法
|
9天前
|
机器学习/深度学习 人工智能 分布式计算
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析
14 0
|
1月前
|
传感器 算法 计算机视觉
基于肤色模型和中值滤波的手部检测算法FPGA实现,包括tb测试文件和MATLAB辅助验证
该内容是关于一个基于肤色模型和中值滤波的手部检测算法的描述,包括算法的运行效果图和所使用的软件版本(matlab2022a, vivado2019.2)。算法分为肤色分割和中值滤波两步,其中肤色模型在YCbCr色彩空间定义,中值滤波用于去除噪声。提供了一段核心程序代码,用于处理图像数据并在FPGA上实现。最终,检测结果输出到"hand.txt"文件。

热门文章

最新文章