机器学习第3周:算法学习

简介: 本文主要介绍了机器学习算法的主要学习分类和相关的子类别,如回归和聚类等等。

快速复习

在前一篇文章中,机器学习第2周:项目方法学我写了关于算法学习分类。你会发现一些关于CRISPDM方法的个人见解。

算法学习分类

当开始了KXEN的旅行时,并没有一个在数据挖掘或数据科学领域的谱系说明。我有技术支持和程序员的背景,因此,我理解了算法这个词在编程方面的含义,并且发现对于数据科学来说,没有什么区别。

f14e0565a52fcd6a1674ea9bbf7ef8fe95f2e0fa 

当还在学校的时候,我们就解决了代数问题,例如找到通过两点(11)和(1, 2)之间直线的方程找到函数fx)=x4-8×25的最大值和最小值。

有很多算法可以帮助你去解决单一类型的问题,机器学习项目中通常是由数据挖掘目标进行表示的。

所以,我们需要一种方法来组织算法的工具包。在这里,我将使用一种叫做学习分类的概念。

使用学习分类帮助你思考如何进行准备并使用你的数据来建立模型。最后,你会尝试选择最合适的算法来测试。

让我们来看看机器学习算法和相关的子类别的主要学习分类。

监督学习

使用监督学习,你将用一组标记过的数据来推导一个函数,其中结果(目标)是已知的。这个数据集也被称为训练数据集。

训练数据集可以被表示为由一个特征向量输入(或变量、维度)和相关联的输出值组成的数据对。

因此,监督学习算法的目标是分析训练数据,并产生一个函数,该函数可以对新的特征向量输入进行评分,并得到预测输出值。

这将要求算法从训练数据中对模式进行泛化(在推断函数中),以便以合理、正确的方式确定对任何新的和看不见的特征向量输入的输出值。

目前有大量的监督学习算法,它们各有各的的长处和短处。这意味着没有一个全能算法可以解决所有监督学习的问题。

你可以进一步对监督学习算法进行分组:

分类

这种方式适用于当目标被表示为一类的时候,如“A”“B”的二元分类,或“A”“B”,和“C”的一个多类别分类。

下图表描述了一个简单的分类示例,其中每个图标基于其输入值(x1x2轴)进行定位,并基于输出值标记颜色。推断函数是绿线(这里是线性函数),每个问号是推断函数将被分配给一侧或另一个的新输入。

1e01580beae1a434eb313996388e0a0e163931bd  

回归

这种方式适用于目标被表示为一个连续的数字的时候,比如财政收入、重量或温度时。

下图描述了一个简单的回归示例,其中每个标记基于其输入值(x轴)和输出值(y轴)来定位。推断函数是绿线,它可以为任何“X”输入值获得“Y”输出值。

4c08f919a91f75d3f357b9b159dba7644dae186c 

时间序列预测

适用于当训练数据集表示一个信号或一系列的值时,在这里你需要使用以前的数据来推断下一个N值。

有些人可能认为时间序列预测是一种回归,除了时间序列的推断函数将产生一系列的值,而不是在回归中的一个值。

另外,时间序列的数据集结构需要具有唯一值的排序列(通常是日期,但在某些情况下也可能是个增量列)

下面的例子显示了固定区间中的一系列点:标记为蓝色的点。时间序列算法推断函数(绿线)表示余弦函数,该余弦函数可用于预测后续5个值(红色的点)

9a51de57bdcea80939ac8daeb14196d0e8d34891 

综上所述,分类和回归的最大区别是目标变量(输出)的表达方式,其中一个是离散的(类别),而另一个是连续的。

无监督学习

与监督学习相反,使用无监督学习,你将使用一组未标记的数据(没有定义的结果)来推导出一个函数。

因此,推导函数是用来描述在数据中隐藏的底层结构和模式或分布。与监督学习不同,没有真正的方法来评估所找到的结构和模式的准确性或相关性。

你可以进一步对无监督学习算法进行分组:

聚类

这种类型的算法适用情况是,当需要对比综合分布,而根据实体属性的相似性差别距离来定义实体组(a.k.a.集群)时。每个聚类算法都有自己的分组策略,其基于距离中心的距离、组密度、组分布等,就像一些允许或防止重叠,或存在剩余项一样。

在下面的示例中,这个算法用到中心的距离定义了5个聚类。

dfb2ea3c666d0ba4acaea6334a624716772032cc 

关联规则

当使用事务性数据集将项目互相链接或将用户和项目链接时,可以应用这种类型的算法,而你的目标是提取有关关联的规则。一个常见的规则例子可以是当你购买Y时又买X。当然,规则可以在涉及多个项目或执行某个确定的序列的时间更长。

在下面的示例中,从一系列用户购物的交易中提取一组规则

2b5d6ac2e1cc27acf285996e053fcc0c75f6cf85 

其它的学习分类

半监督学习

在半监督学习中,只有一部分输入数据被标记了,这意味着算法必须通过结构学习来组织数据以及进行预测。

标记所有数据可能会变得费时费力,或者更糟的是,它们可能被错误地标记。

如果以一个图像库为例,只有一小部分图像将被标记。

因此,无监督学习和监督学习技术都被用来最好的利用未标记数据,将其与标记数据进行聚类或做出最佳的预测,并使用所有这些来构建模型。

增强学习

通过强化学习,该算法试图找到最佳的方式(一系列决策或行为)以获取最大的回报

很典型的,在每一个步骤中,在导致一个回报和一个状态的环境中来做出决定。通过多次执行,该算法能够学习如何提高其决策能力和获得更大回报的能力。

参考

为了写这篇文章,我参考了一些有启发的、描述详细的和有想法的来源。

1.面向数据科学的机器学习101

2.Ronald van Loon解释机器学习

3.维基百科:

1增强学习

2半监督学习

3监督学习

4无监督学习

总结

希望这篇文章有助于清除机器学习中的一些术语,并帮助读者们理解这些算法,你可以使用自己的训练数据(标记或未标记的)创建最好的函数,然后就可以应用到新的数据集上了。

更新:下面的是每周在盒子博客上发表的所有的机器学习文章的链接:

·介绍机器学习项目

·机器学习第2:项目方法论

·回顾机器学习第2: 项目方法论

·机器学习第3: 算法学习分类

·机器学习第4: 让你的环境运转起来

·机器学习第5: 下载机器学习的数据集

·机器学习第6: SAPHANAR 整合

·机器学习第7: Jupyter笔记

  数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

以上为译文。

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《Machine Learning in a Box (week 3): Algorithm Learning Styles》,译者:Mags,审校:袁虎。

文章为简译,更为详细的内容,请查看原文

相关文章
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
164 4
|
7天前
|
负载均衡 算法
架构学习:7种负载均衡算法策略
四层负载均衡包括数据链路层、网络层和应用层负载均衡。数据链路层通过修改MAC地址转发帧;网络层通过改变IP地址实现数据包转发;应用层有多种策略,如轮循、权重轮循、随机、权重随机、一致性哈希、响应速度和最少连接数均衡,确保请求合理分配到服务器,提升性能与稳定性。
79 11
架构学习:7种负载均衡算法策略
|
18天前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
126 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
8天前
|
机器学习/深度学习 算法 网络安全
CCS 2024:如何严格衡量机器学习算法的隐私泄露? ETH有了新发现
在2024年CCS会议上,苏黎世联邦理工学院的研究人员提出,当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施(HAMP、RelaxLoss、SELENA、DFKD和SSL),发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳,而强大的差分隐私基线则提供了更好的隐私-效用权衡。
41 14
|
1月前
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
61 2
|
2月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
63 1
|
2月前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
2月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
141 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
2月前
|
机器学习/深度学习 算法
深入探索机器学习中的决策树算法
深入探索机器学习中的决策树算法
48 0