只需6步,从头开始编写机器学习算法

简介:

从头开始编写算法是一种有益的体验,当你最终点击运行的那一刻,你会了解算法背后真正发生了什么。

如果你以前用scikit-learn实现过这个算法,从头开始编写就会很容易?不是这样。

有些算法只是比其他算法更复杂,所以可以从简单的开始,比如单层感知器(Perceptron)。

本文将以感知器为案例,引导你完成从头开始编写算法的6个步骤。这种方法可以很容易地用于编写其他机器学习算法。

1. 对算法有一个基本的了解

这又回到了我最初所说的。如果你不了解基础知识,请不要从头开始处理算法。至少,你应该能够回答以下问题:

 ●  它是什么?
 ●  它通常用于做什么?
 ●  什么时候不能使用它?

对于感知器,上面三个问题的答案是:

 ●  单层感知器是最基本的神经网络,通常用于二进制分类问题(1或0,“是”或“否”)。
 ●  它是一个线性分类器,因此只有在存在线性决策边界的情况下才能有效使用。一些简单的用途可以是情绪分析(正面或负面反应)或贷款违约预测(“会违约”,“不会违约”)。对于这两种情况,决策边界都必须是线性的。
 ●  如果决策边界是非线性的,那么你实际上无法使用感知器。对于这些问题,需要使用其他算法。

e015d9a366bb26e822dabfd3c33b183cc8ad3b33
2. 找到各种类型的学习资源

在对模型有了基本的了解之后,是时候开始进行研究了。我建议使用大量资源。有些人用教科书学得更好,有些人用视频学得更好。就我个人而言,我喜欢使用各种类型的资源。对于数学细节,教科书的解释很好,但对于更实际的例子,我更喜欢看博客文章和YouTube视频。

对于感知器,这里有一些很棒的资源。

教材:

 ●  《统计学习基础》,第4.5.1节
 ●  《深入理解机器学习:从原理到算法》,第21.4节

博客:

 ●  JasonBrownlee的Machine Learning Mastery系列文章,其中一篇是《如何用Python从头开始实现感知器算法》:

https://machinelearningmastery.com/implement-perceptron-algorithm-scratch-python/

 ●  SebastianRaschka的博客,Single-Layer Neural Networks and Gradient Descent

https://sebastianraschka.com/Articles/2015_singlelayer_neurons.html

视频:

 ●  感知器训练:

https://www.youtube.com/watch?v=5g0TPrxKK6o

 ●  Perceptron算法的工作原理:

https://www.youtube.com/watch?v=1XkjVl-j8MM

53c270cb804f93064f5277301bebdce62aedfe95

3. 将算法分解为块

现在,我们已经收集了需要的资料,是时候开始学习了。与其从头到尾阅读书本或博客文章,不如先浏览一下章节标题和其他重要信息。写下要点,并尝试概述算法。

在浏览完这些资料后,我们可以将Perceptron算法分解为以下几个块(chunks):

 ●  初始化权重
 ●  将输入乘以权重,并求和
 ●  将结果与阈值进行比较,并计算输出(1或0)
 ●  更新权重
 ●  重复这个过程

将算法分解成这样的块,可以使得学习更容易。基本上,我已经使用伪代码概述了这个算法,现在可以回过头来填写细节了。 下面这张图是第二步的笔记,即权重和输入的点积:


f8bcd66740e086557cde54b9c607bcd5bfc49c09

4. 从一个简单的例子开始

在整理好算法相关的笔记后,是时候开始在代码中实现它了。

在深入研究一个复杂的问题之前,我想先从一个简单的例子开始。对于感知器,NAND gate(与非门)是一个完美的简单数据集。如果两个输入都为真(1),则输出为假(0),否则输出为真。下面是数据集的一个示例:

13ed8f46a3e7270a45813551eb8e50bc590a7422


现在,有了一个简单的数据集,我将开始实现我在步骤3中概述的算法。最好将这个算法分成块编写并进行测试,而不是试图一次性写完。这样在刚开始时更容易调试。

下面是我在步骤3中概述的算法点积部分的Python代码示例:

f8af3f2f95e0bdc6eff553bc3988cf5928cc49c8

5. 使用可信的实现进行验证

我们已经编写了代码,并针对一个小数据集进行了测试,现在是时候扩展到更大的数据集了。为了确保我们的代码在这个更复杂的数据集上正确工作,最好在一个可信的实现上对其进行测试。对于感知器,我们可以使用scikit-learn中的实现。

09285245f4e80a4d9ebc9b5af9e8e6710ef92855

为了测试代码,我将检查权重。如果正确地实现了算法,我的权重应该与scikit-learn中感知器的权重相匹配。

ef2b4d155017e1288a3fbb099cffe92ed11af419

一开始,我没有得到相同的权重,这是因为我不得不调整scikit-learn Perceptron中的默认设置。我并不是每次都实现一个新的随机状态,而只是一个fixed seed,所以不得不关闭它。shuffling也是这样,也需要关闭它。为了匹配学习率,我将eta0改为0.1。最后,我关闭了fit_intercept选项。我在特征数据集中包含了一个1的虚拟列,所以已经自动拟合了偏差项。

这引出了另一个重要的问题。在验证模型的现有实现时,你需要非常清楚模型的输入。你不应盲目地使用模型,而要总是质疑你的假设,以及每个输入的确切含义。

6. 写下你的过程

这个过程的最后一步可能是最重要的。 你已经完成所有的学习工作,做了笔记,从头开始编写了算法,并将它与可信的实现进行了比较。那么不要让所有这些工作白白浪费掉。编写流程非常重要,原因是:

你会得到更深刻的理解,因为这样做相当于在教别人你刚学到的东西。你可以向潜在的雇主展示它。证明你可以利用机器学习库实现算法是一回事,但如果你可以从头开始实现一个算法,那就更令人印象深刻了。

edf934baba4093d7a829a026ba1bd6f0cb45a6e5

结论

从头开始编写算法是一种非常有益的体验。这是深入了解模型、构建一个令人印象深刻的项目组合的好方法。


原文发布时间为:2018-09-27

本文作者:John Sullivan

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:只需6步,从头开始编写机器学习算法

相关文章
|
14天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
49 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
2月前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
2月前
|
机器学习/深度学习 人工智能 算法
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
玉米病害识别系统,本系统使用Python作为主要开发语言,通过收集了8种常见的玉米叶部病害图片数据集('矮花叶病', '健康', '灰斑病一般', '灰斑病严重', '锈病一般', '锈病严重', '叶斑病一般', '叶斑病严重'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。再使用Django搭建Web网页操作平台,实现用户上传一张玉米病害图片识别其名称。
62 0
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
|
2月前
|
机器学习/深度学习 算法 决策智能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
|
2月前
|
机器学习/深度学习 算法 Python
探索机器学习中的决策树算法:从理论到实践
【10月更文挑战第5天】本文旨在通过浅显易懂的语言,带领读者了解并实现一个基础的决策树模型。我们将从决策树的基本概念出发,逐步深入其构建过程,包括特征选择、树的生成与剪枝等关键技术点,并以一个简单的例子演示如何用Python代码实现一个决策树分类器。文章不仅注重理论阐述,更侧重于实际操作,以期帮助初学者快速入门并在真实数据上应用这一算法。
|
23天前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的决策树算法
【10月更文挑战第29天】本文将深入浅出地介绍决策树算法,一种在机器学习中广泛使用的分类和回归方法。我们将从基础概念出发,逐步深入到算法的实际应用,最后通过一个代码示例来直观展示如何利用决策树解决实际问题。无论你是机器学习的初学者还是希望深化理解的开发者,这篇文章都将为你提供有价值的见解和指导。
|
2月前
|
机器学习/深度学习 算法 大数据
机器学习入门:梯度下降算法(下)
机器学习入门:梯度下降算法(下)
|
2月前
|
机器学习/深度学习 算法 API
机器学习入门(五):KNN概述 | K 近邻算法 API,K值选择问题
机器学习入门(五):KNN概述 | K 近邻算法 API,K值选择问题
|
2月前
|
机器学习/深度学习 算法 数据处理
EM算法对人脸数据降维(机器学习作业06)
本文介绍了使用EM算法对人脸数据进行降维的机器学习作业。首先通过加载ORL人脸数据库,然后分别应用SVD_PCA、MLE_PCA及EM_PCA三种方法实现数据降维,并输出降维后的数据形状。此作业展示了不同PCA变种在人脸数据处理中的应用效果。
35 0
下一篇
无影云桌面