Python机器学习算法入门之简单感知器学习算法

简介:

问题背景

考虑一个问题:现在我们有一些过往核发信用卡的资料,包括用户个人信息和审核结果。根据这些资料,我们希望预测能不能给下一个用户发信用卡。用户基本信息如下:


这些基本信息组成了一个向量。不同的信息有不同的权重,设权重向量。我们希望构造一个函数来给用户的信用打分,并且,如果信用分超过了某个阈值,我们就认为这个客户是可靠的,可以给他发信用卡:

能发:
不能:

通过阶跃函数,进一步将这个过程函数化:


所以,当,通过;当,拒绝;当,忽略。

其中: 


整理该方程如下: 


具体到二维空间

简化上面的问题,假设用户只有两个属性,就可以用二维空间的一个点来表示一个用户。如下所示,蓝圈表示通过,红叉表示拒绝。注意到直线的两边,一边大于0,一边小于0,也就是一边都是蓝圈,一边都是红叉。所以现在的目标就是,找到一条直线,可以将已知的蓝圈和红叉完美区分开。


基础知识回顾

简单回顾一下线性代数的知识。一条直线可以由一个点和法向量 唯一确定。其点法式方程为:。相应地,其方向向量为:


感知机学习算法


简单感知机算法(Perceptron Learning Algorithm,PLA)的思路很简单,首先随便找一条直线,然后遍历每一个已知点,如果正确,则跳过;如果错误,则利用这个点的信息对直线进行修正。修正的思路如上图所示:是直线的法向量。是错误点的方向向量,是真实值。具体情况可分为如下两种情况:

情况一:


为了将这个出错的点包括进紫色区域,应该靠近方向。因此,

情况二:


为了将这个出错的点排除出紫色区域,应该远离方向。因此,


综上,得到修正函数:


证明:PLA校正的正确性

那么为什么感知机算法可以逐步接近正确呢?

已知

两边同时乘上,得:

因为,所以:

注意到恰好就是我们给出的当前用户的分数。当,也就是我们打分打低了,修正后分数上升;当,也就是我们打分打高了,修正后分数下降。这个结论说明,对于这组错误数据,经过修正以后,我们打出的分数更靠近正确结果了。

证明:PLA终止的充分条件

从算法的规则上可以看出,PLA终止的必要条件是数据集中确定存在一条直线,可以将蓝圈和红叉分开,也就是线性可分: 


现在证明,线性可分是PLA终止的充分条件。

(1) 设表示第t次更新时的点,一共更新了n次。若线性可分,则必然存在一条完美的直线,使得对,有。也就是:


为向量内积,也就是)又由的更新规则得: 


因此: 


综上,得到: 


初始时,所以: 


(2) 因为每次遇到错误的数据才会更新,也就是。其中 是第t次更新时的权重值。因此: 


类似于(1),得到: 


(3) 综上,得:


是一个常数,因此,随着t的增大,也逐步增大,也就是向量的夹角逐渐减小,逐渐接近。 
又因为:
,所以。因此,PLA算法必然收敛。

Linear Pocket Algorithm

上述PLA算法的前提是数据集线性可分。但是很明显,在分类之前我们不可能知道我们手里的数据是不是线性可分的。更何况,数据集可能有噪声(noise),这些噪声是之前的经验中错误的分类结果,这些噪声将导致PLA无法收敛。因此,我们的目标就从找到一条完美划分数据集的,变成了找到一条最接近完美,使得错误的点最少。这个转变使得我们可以理非线性可分的数据集 :


但是很遗憾的是,寻找 是一个NP-hard问题。

因此问题又从“寻找最接近完美的变成了“寻找尽可能完美的。Pocket Algorithm是PLA的变形,用于处理此类问题。算法如下: 


与简单PLA不同的是:

Pocket Algorithm事先设定迭代次数,而不是等算法自己收敛;
随机遍历数据集,而不是循环遍历;

遇到错误点校正时,只有当新得到的优于(也就是错误更少)时才更新。因为Pocket要比较错误率,需要计算所有的数据点,因此效率要低于PLA。

如果数据集巧合是线性可分的,只要迭代次数够多,Pocket和PLA的效果是一样的,只是速度慢。

实践

讲了这么多理论知识,现在用python实践一下这个算法。简单起见,这里已知数据集是线性可分的,直接采用简单PLA就可以解决。核心代码不到20行,只需要理解train()函数即可,其它部分都是为了把这个图画出来。


运行效果如下: 


原文发布时间为:2017-02-19 

本文作者:ZZR

本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号

相关文章
|
7月前
|
SQL 关系型数据库 数据库
Python SQLAlchemy模块:从入门到实战的数据库操作指南
免费提供Python+PyCharm编程环境,结合SQLAlchemy ORM框架详解数据库开发。涵盖连接配置、模型定义、CRUD操作、事务控制及Alembic迁移工具,以电商订单系统为例,深入讲解高并发场景下的性能优化与最佳实践,助你高效构建数据驱动应用。
919 7
|
7月前
|
存储 算法
算法入门:专题二---滑动窗口(长度最小的子数组)类型题目攻克!
给定一个正整数数组和目标值target,找出总和大于等于target的最短连续子数组长度。利用滑动窗口(双指针)优化,维护窗口内元素和,通过单调性避免重复枚举,时间复杂度O(n)。当窗口和满足条件时收缩左边界,更新最小长度,最终返回结果。
|
8月前
|
测试技术 开发者 Python
Python单元测试入门:3个核心断言方法,帮你快速定位代码bug
本文介绍Python单元测试基础,详解`unittest`框架中的三大核心断言方法:`assertEqual`验证值相等,`assertTrue`和`assertFalse`判断条件真假。通过实例演示其用法,帮助开发者自动化检测代码逻辑,提升测试效率与可靠性。
582 1
|
9月前
|
机器学习/深度学习 算法 数据挖掘
没发论文的注意啦!重磅更新!GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究(Matlab代码实现)
没发论文的注意啦!重磅更新!GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究(Matlab代码实现)
273 0
|
9月前
|
API 数据安全/隐私保护 开发者
Python自定义异常:从入门到实践的轻松指南
在Python开发中,自定义异常能提升错误处理的精准度与代码可维护性。本文通过银行系统、电商库存等实例,详解如何创建和使用自定义异常,涵盖异常基础、进阶技巧、最佳实践与真实场景应用,助你写出更专业、易调试的代码。
334 0
|
7月前
|
Cloud Native 算法 API
Python API接口实战指南:从入门到精通
🌟蒋星熠Jaxonic,技术宇宙的星际旅人。深耕API开发,以Python为舟,探索RESTful、GraphQL等接口奥秘。擅长requests、aiohttp实战,专注性能优化与架构设计,用代码连接万物,谱写极客诗篇。
1596 1
Python API接口实战指南:从入门到精通
|
7月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
7月前
|
存储 算法
算法入门:专题一:双指针(有效三角形的个数)
给定一个数组,找出能组成三角形的三元组个数。利用“两边之和大于第三边”的性质,先排序,再用双指针优化。固定最大边,左右指针从区间两端向内移动,若两短边之和大于最长边,则中间所有组合均有效,时间复杂度由暴力的O(n³)降至O(n²)。
|
7月前
|
存储 算法 编译器
算法入门:剑指offer改编题目:查找总价格为目标值的两个商品
给定递增数组和目标值target,找出两数之和等于target的两个数字。利用双指针法,left从头、right从尾向中间逼近,根据和与target的大小关系调整指针,时间复杂度O(n),空间复杂度O(1)。找不到时返回{-1,-1}。

热门文章

最新文章

推荐镜像

更多