近年来,在各种讨论和论坛中都出现了“ 机器学习 ”一词,但这到底是什么意思?可以将机器学习定义为基于模式识别和计算学习的数据分析方法。它由不同的算法组成,如神经网络,决策树,贝叶斯网络等。机器学习使用这些算法从数据中学习并从数据中恢复隐藏的见解。学习过程是迭代的,因此也可以在没有任何监督的情况下处理新数据。从以前的数据中学习并将其用于将来的数据的科学并不是什么新鲜事物,但是它越来越受关注。
什么是机器学习
尽管有些人认为机器学习并不比仍在使用的传统计算机编程方法更好,但许多人认为机器学习是人工智能(AI)领域的一场革命。他们相信,使用这种技术,机器将能够学习事物并以自己的经验做事,而不是简单地遵循人工指导。
为了更多地了解机器学习的含义,我们可以将其与传统的计算机编程进行比较。以下各节将讨论有关机器学习及其与传统编程的区别的更多信息。
什么是传统编程
当我们对计算机进行编程时,我们实际上所做的就是以它能理解的语言为它提供指导。然后,当我们给它一个输入时,它会根据我们给它的指令给出一个输出。
现在,让我们假设您已经输入了申请信用卡的信息。在处理输入时,系统将查看应用程序的所有重要部分,获取必要的信息并进行处理。此后,它将根据提供给它的程序产生接受或拒绝的输出。
机器学习有何不同
如果在信用卡方案中使用机器学习代替传统的编程方法,则结果将有所不同。结果实际上将基于输入数据,并且系统将通过处理该输入数据来获得经验。不会有任何特殊程序。随着它获得越来越多的经验,其性能将随着时间的推移而变得更好。
因此,机器学习实际上是通过分析每次使用系统所产生的大量数据文件来学习的。在分析数据时,它会根据更新的需求更改其编程。这也导致其准确性的提高。我们也可以说机器学习就像线性回归一样,其中变量和参数被更改以更好地匹配所提供的输入。
最受欢迎的机器学习方法
机器学习最流行的方法是无监督和有监督的学习方法。在这些方法中,最常用的是监督方法。约有70%受到监督,而10–20%则不受监督。在许多情况下,还使用半监督和强化学习。
监督学习
在此方法中,算法包含在带有标记的示例中,其中带标记的数据表示对数据进行了描述。机器学习系统将同时接收输入及其相应的输出。现在,系统可以通过将实际输出与正确的输出进行比较以发现错误来获得更多的经验。
在分析了输出并确定了错误之后,系统将相应地更改其编程。系统可以使用不同的方法来预测未标记数据上的标签。此方法用于根据过去的数据进行将来的事件预测。
半监督学习
这种机器学习方法在类似的情况下使用,但在训练时也使用未标记的数据。未标记的数据是可以从世界上自然获得的任何东西,但不具有任何形式的解释或描述。通常,半监督学习对未标记数据的作用大于已标记数据,但它也可以使用已标记数据。这是因为可以轻松收集未标记的数据。
该方法还具有相同的学习因素,即预测,分类和回归。当监督学习的成本太高时,这被认为是最好的方法。
无监督学习
此方法用于未分类的数据,即未标记的数据。因此,系统不知道正确的输出,因此算法必须确定正确的输出本身。它可以通过在数据中找到一些结构来做到这一点。这种类型的机器学习方法非常适合事务数据。这里学习的因素是最近邻和自组织映射,以及奇异值分解和k均值聚类。
强化学习
这种机器学习方法用于游戏,车辆导航和机器人技术等地方。在这种方法中,系统通过试错法学习。此方法的主要目标是在最短的时间内确定输出,这可以通过遵循适当的策略来完成。
机器学习的重要性
由于使数据挖掘概念变得如此重要的相同原因,机器学习的重要性正日益增长。这些原因包括廉价和强大的计算能力,每天创建大量数据以及廉价和大容量的数据存储方法。这些因素确保可以非常快速地建立强大而准确的模型,这些模型可用于批量分析大数据储备,以获取更好的,高度准确的输出。这意味着可以使用更好的模型在更少的时间内完成更好的公司和业务决策,而无需任何人工。
快速制作这种准确模型的一种方法是自动制作模型。该模型应具有足够的动态性,以适应不断变化的时代。人们通常每周可以创建两个模型,而机器学习可以通过快速分析数据来创建数千个准确的模型。这就是为什么机器学习对企业和其他领域如此重要的原因。
机器学习算法和过程
机器学习算法通过帮助系统快速分析数据并产生准确的结果,帮助最大程度地利用大数据。这些算法有助于创建可用于制定业务决策的模型。一些算法类型是神经网络,随机森林,k均值聚类,自组织映射和最近邻居映射。
但是,使用算法并不是全部。最好的模型只能通过遵循适当的过程来制作。此类过程的一些示例是全面的数据管理,数据的交互式浏览以及模型发现的结果的可视化。
机器学习对业务的影响
机器学习对业务的影响是巨大的。机器学习为企业开辟了新的可能性。它有助于精确的模型制作,进而有助于快速做出更好,更明智的决策。
一些实际用例
机器学习已在许多地方使用。推荐系统使用机器学习根据用户的偏好和当前的市场模式实时向用户提出推荐。
Promedas是医学软件或“桌面医生”,是一种基于机器学习的程序,它使用数百年的医学知识来帮助医生检测和诊断疾病。它利用从以前的疾病模式记录中收集的数据来识别患者的疾病。这有助于更快地识别和治疗疾病。
亚马逊通过计算机算法实现了员工访问权限的授予和撤销自动化,该算法可以预测每位员工的资源访问权限。为此,计算机算法使用这些记录来分析风险以及员工通常的可信度。
康奈尔大学还使用机器学习算法通过录音来检测海洋中的鲸鱼,从而使船舶可以避开鲸鱼。该算法分析了鲸鱼的迁移数据(鲸鱼的去向和时间),以确定船只应避开鲸鱼的路径。