机器学习从零基础开始【第一节】

简介: 机器学习从零基础开始【第一节】

机器学习一词由美国计算机游戏和人工智能领域的先驱亚瑟·塞缪尔 (Arthur Samuel) 于 1959 年创造,并表示“它赋予计算机无需明确编程的学习能力”。

1997 年,汤姆·米切尔 (Tom Mitchell) 给出了一个“适定”的数学和关系定义,


“如果计算机程序在 T 上的性能(由 P 衡量)随着经验 E 提高,则称该计算机程序从经验 E 中学习关于某些任务 T 和某些性能度量 P。”

机器学习是近年来的流行语。因为它是计算机科学中最有趣的子领域之一。那么机器学习的真正含义是什么?


让我们尝试用外行的术语来理解机器学习。想一想你正试图将一团纸扔进垃圾箱。 在第一次尝试之后,你意识到你用力过猛。第二次尝试后,您意识到您离目标更近了,但您需要增加投掷角度。这里发生的事情基本上是在每次投掷之后我们都在学习一些东西并改进最终结果。我们被编程为从我们的经验中学习。


这意味着机器学习所关注的任务提供了一个基本的操作定义,而不是用认知术语来定义该领域。这遵循了艾伦·图灵在他的论文“计算机与智能”中提出的“机器能思考吗?”这个问题。被替换为“机器可以做我们(作为思考实体)可以做的事情吗?”


在数据分析领域,机器学习用于设计复杂的模型和算法以进行预测;在商业用途中,这称为预测分析。这些分析模型允许研究人员、数据科学家、工程师和分析师通过学习数据集(输入)中的历史关系和趋势,“产生可靠、可重复的决策和结果”并发现“隐藏的见解”。


假设您决定查看该假期的优惠。您浏览旅行社网站并搜索酒店。当您查看特定酒店时,在酒店描述下方有一个标题为“您可能也喜欢这些酒店”的部分。这是机器学习的一个常见用例,称为“推荐引擎”。同样,许多数据点被用于训练模型,以根据他们已经了解的大量信息来预测在该部分下向您展示的最佳酒店。


因此,如果您希望您的程序预测,例如,繁忙路口的交通模式(任务 T),您可以通过机器学习算法运行它,并使用有关过去交通模式的数据(经验 E),如果它已成功“学习”,然后它将更好地预测未来的流量模式(性能度量 P)。


然而,许多现实世界问题的高度复杂性通常意味着,发明每次都能完美解决这些问题的专门算法是不切实际的,如果不是不可能的话。机器学习问题的例子包括,“这是癌症吗?”,“这些人中谁是彼此的好朋友?”,“这个人会喜欢这部电影吗?” 此类问题是机器学习的极好目标,事实上,机器学习已被应用于此类问题并取得了巨大成功。


机器学习的分类


机器学习实现分为三大类,具体取决于学习系统可用的学习“信号”或“响应”的性质,如下所示:


监督学习: 当算法从示例数据和相关的目标响应中学习时,这些目标响应可以由数值或字符串标签组成,例如类或标签,以便以后在新示例中预测正确响应时,属于监督学习的范畴. 这种方法确实类似于人类在教师监督下的学习。教师提供好的例子让学生记住,然后学生从这些具体的例子中推导出一般规则。


无监督学习:而当算法从没有任何关联响应的普通示例中学习时,让算法自行确定数据模式。这种类型的算法倾向于将数据重组为其他东西,例如可能代表一个类或一系列新的不相关值的新特征。它们在为人类提供对数据含义的洞察以及对监督机器学习算法的新有用输入方面非常有用。


作为一种学习,它类似于人类用来判断某些对象或事件是否属于同一类的方法,例如通过观察对象之间的相似程度。您在网上找到的一些以营销自动化形式出现的推荐系统就是基于这种类型的学习。


强化学习: 当您向算法展示缺少标签的示例时,如无监督学习。但是,您可以根据算法提出的解决方案附带一个带有正面或负面反馈的示例,属于强化学习类别,该类别与算法必须做出决策的应用程序相关(因此产品是规定性的,而不仅仅是描述性的,如在无监督学习中),并且决策承担后果。在人世间,就像是在试错中学习。


错误可以帮助您学习,因为它们会增加惩罚(成本、时间损失、后悔、痛苦等),告诉您某项行动比其他行动更不可能成功。当计算机学会自己玩电子游戏时,就会出现强化学习的一个有趣例子。


在这种情况下,应用程序通过特定情况的示例展示算法,例如让游戏玩家在躲避敌人的同时陷入迷宫。该应用程序让算法知道它采取的行动的结果,并且在尝试避免它发现的危险并追求生存的同时进行学习。你可以看看谷歌 DeepMind 公司是如何创建一个强化学习程序来玩旧的 Atari 视频游戏的。观看视频时,请注意该程序最初是如何笨拙和不熟练的,但随着训练不断改进,直到它成为冠军。


半监督学习:给出不完整的训练信号:训练集缺少一些(通常是很多)目标输出。该原理有一个特殊情况,称为转导,其中整个问题实例集在学习时都是已知的,只是缺少部分目标。


根据所需输出分类


当人们考虑机器学习系统的期望输出时,就会出现机器学习任务的另一种分类:


1.分类:当输入被分成两个或更多类时,学习者必须生成一个模型,将看不见的输入分配给这些类中的一个或多个(多标签分类)。这通常以受监督的方式解决。垃圾邮件过滤是分类的一个例子,其中输入是电子邮件(或其他)消息,类别是“垃圾邮件”和“非垃圾邮件”。


2.回归:这也是一个监督问题,输出是连续的而不是离散的情况。


3.聚类:当一组输入被分成组时。与分类不同,这些组是事先不知道的,这使得这通常是一项无监督的任务。

当问题无法通过典型方法解决时,机器学习就会出现。


目录
相关文章
|
7月前
|
机器学习/深度学习 数据采集 算法
机器学习入门:算法与数据的探索之旅
【6月更文挑战第13天】本文介绍了机器学习的基础,包括算法和数据处理的重要性。机器学习算法分为监督学习(如线性回归、决策树)、非监督学习(如聚类、降维)和强化学习。数据处理涉及数据清洗、特征工程、数据分割及标准化,是保证模型性能的关键。对于初学者,建议学习基础数学、动手实践、阅读经典资料和参与在线课程与社区讨论。
|
8月前
|
机器学习/深度学习 人工智能 算法
机器学习和深度学习有啥区别?一看就懂
深度学习与机器学习是相关但不同的概念,深度学习是机器学习的一个分支。机器学习侧重于让计算机在无明确编程情况下学习,包括决策树、SVM等算法;而深度学习主要依赖深层神经网络,如CNN、RNN。机器学习对数据需求较小,广泛应用于各领域;深度学习则需要大量数据,擅长图像和语音处理。机器学习模型可简可繁,计算资源需求较低;深度学习模型复杂,常需GPU支持
342 0
|
8月前
|
机器学习/深度学习 API 开发者
深入浅出:使用Python实现机器学习模型的部署
在本文中,我们将探讨如何使用Python语言将机器学习模型从开发环境迁移到生产环境的过程。与传统的技术文章摘要不同,我们不仅会概述关键步骤和常见挑战,还将引入一个简易的案例研究,通过这个案例,读者能够更直观地理解模型部署的全过程及其重要性。我们将重点讨论模型封装、API设计、容器化技术以及云服务部署等关键技术,旨在为广大开发者提供一个清晰、实用的模型部署指南。
|
机器学习/深度学习 数据可视化
可解释的机器学习|深度学习(李宏毅)(十一)
可解释的机器学习|深度学习(李宏毅)(十一)
897 0
可解释的机器学习|深度学习(李宏毅)(十一)
|
机器学习/深度学习 计算机视觉
可解释机器学习 - 李宏毅笔记
可解释机器学习 - 李宏毅笔记
|
机器学习/深度学习 数据采集 算法
机器学习知识点全面总结
机器学习知识点全面总结
677 0
机器学习知识点全面总结
|
机器学习/深度学习 人工智能 算法
一篇白话机器学习概念
一篇白话机器学习概念
|
机器学习/深度学习 算法 数据挖掘
机器学习,你不得不掌握的十大算法(上篇)
我们知道,机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
344 0
机器学习,你不得不掌握的十大算法(上篇)
|
机器学习/深度学习
一图看懂所有机器学习概念
一图看懂所有机器学习概念
一图看懂所有机器学习概念
|
机器学习/深度学习 自然语言处理 算法
12 月机器学习新书:《可解释机器学习方法的局限》,免费下载!
12 月机器学习新书:《可解释机器学习方法的局限》,免费下载!
193 0
12 月机器学习新书:《可解释机器学习方法的局限》,免费下载!