机器学习第1天:概念与体系漫游

简介: 机器学习第1天:概念与体系漫游

机器学习的概念

“机器学习是一个研究领域,让计算机无需进行明确编程就具备学习能力”

                                                                                          ————亚瑟·萨缪尔

当人们听到“机器学习”这个词汇时,可能相到的时某个科幻电影中的机器人。

但是近几年来,人工智能已经逐渐出现在了我们生活的方方面面了,人工智能的强大或许会引起一些人的恐慌,担心最终是否会控制人类

但当我们了解人工智能的基本原理后,就会发现目前来说,机器很难产生智能,让我们来具体了解机器学习吧


机器学习的应用场景

生活需求推动科技的进步,同时结合现实我们也能更好地理解一门知识

(1)垃圾邮件处理

传统的垃圾邮件处理方式或许是标记一些垃圾邮件中常出现的词,例如广告,销售等行业的词汇,但是这样的方法不具有普适性,当垃圾邮件发送者修改一下词汇可能你就得改变你的程序,这样的可维护性将非常差

使用机器学习算法时,我们给模型适量的垃圾邮件和正常邮件的内容数据,算法将找到垃圾邮件共有的某种规律,这些规律可能是我们不太能发现的,但是设定好算法后机器能发现,由此产生的垃圾邮件处理器将不需要我们常去修改维护。

(2)多指标预测房价

预测任务也是机器学习任务中一个常见的类型,以预测房价为例,我们给予模型往年的多个指标,例如离学校的距离,房子修建时间,交通等,然后给定以往每年的房价,训练后,当我们给出今年的指标时,它就能预测出一个相应的房价,实际上在这个任务中,数学表达就是一个多项式的拟合

x即为各项指标,然后机器学习算法将会拟合出合适的a值,同样是找到某种“规律”

(3)其他任务

其他还有各种文本分类,语音识别等任务,实际上都是需要先用数据来训练模型,然后模型找到其中的规律,来保证任务完成的好坏,当然,合适的机器学习算法也是必不可少的,我们将在以后的文章中介绍。


机器学习的分类

按是否在监督下训练为分类指标

(1)监督学习

在监督学习中,我们通常会告诉模型我们想要的结果,例如房价预测中给定房价,垃圾邮件分类中给定什么是垃圾邮件,这样模型就会向着这个结果去学习,监督学习常用在回归和分类任务中

(2)无监督学习

无监督学习任务中,我们往往也不知道结果,例如给定一批花的特征数据,让模型辨别有几类花品种,在这个任务中,我们事先也不知道有几种,模型通过算法寻找它们的共性来进行分类,这种任务我们常称为聚类。

(3)半监督学习

半监督学习出现的场景往往是,给数据做标记太耗费资源,但是完全不做又会影响模型性能,于是我们给一部分数据打上标记,这就被称为半监督学习

(4)强化学习

强化学习比起上面三种类别更为复杂,它有许多因子,智能体,环境,行动,回报等,我们将虚拟定义这些因子,让智能体在环境中做出行动,以获得最高回报,常见于训练机器人行走,以及训练玩游戏的场景中


按是否可以动态学习为分类指标

(1)批量学习

批量学习是指一次性把数据都投入到模型中进行训练,之后要加入新的只能把新的和旧的再重新一起训练,由此可知,如果每次要加入新的数据时,还要将旧的数据重新训练,将浪费很多资源,于是在线学习就出现了

(2)在线学习

在线学习允许模型只将新的数据加入进来,而不需要重新训练所有数据,这种方式大大节省了资源,同时它们可以实时更新,不需要工程师重新进行操作


深度学习

其实按照定义来看,深度学习也是机器学习的一种(也是通过数据学习到某种规律),只是由于它的不断发展,逐渐形成一个大的体系,但是本质可以认为它也是机器学习的一种


机器学习的主要挑战

我们已经知道,机器学习就是一个算法模型通过数据学习到解决某种问题的方法,那么我们就需要重点观察数据与算法两个层面

数据

大数据时代,极大地促进了机器学习的发展,但同时也带来了许多问题

(1)无关数据

有时候我们无法判断,就会给模型一些跟结果无关的数据,这样将影响模型最终的性能

(2)过拟合

我们的机器学习任务是要投入到普适场景中的,也就是我们常说的泛化能力,当模型完美契合完美训练的场景时,可能在普适场景中会出问题

以上为三种拟合情况,第一种为欠拟合,第二种刚刚好,第三种则过拟合了

算法

其次就是算法与算力的支持,这需要研究者不断开发出更高效的机器学习算法,同时面临海量数据时,硬件支持也显得尤为重要

书籍推荐

最后推荐一本机器学习入门书籍

中文名为机器学习实战:基于Scikit-Learn、Keras和TensorFlow

(1)清晰明了地解释了各种定义

(2)详细地介绍了机器学习各种算法模型

(3)有具体的代码演示

相关文章
|
7月前
|
机器学习/深度学习 人工智能 算法
详解机器学习概念、算法
详解机器学习概念、算法
详解机器学习概念、算法
|
2月前
|
机器学习/深度学习 自然语言处理 JavaScript
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。
128 2
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
|
2月前
|
机器学习/深度学习 传感器 算法
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
|
7月前
|
机器学习/深度学习 自然语言处理 算法
|
4月前
|
机器学习/深度学习 算法
【机器学习】解释对偶的概念及SVM中的对偶算法?(面试回答)
解释了对偶的概念,指出对偶性在优化问题中的重要性,尤其是在强对偶性成立时可以提供主问题的最优下界,并且详细阐述了支持向量机(SVM)中对偶算法的应用,包括如何将原始的最大间隔优化问题转换为对偶问题来求解。
100 2
|
4月前
|
机器学习/深度学习
【机器学习】准确率、精确率、召回率、误报率、漏报率概念及公式
机器学习评估指标中的准确率、精确率、召回率、误报率和漏报率等概念,并给出了这些指标的计算公式。
836 0
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之深度学习算法概念
深度学习算法是一类基于人工神经网络的机器学习方法,其核心思想是通过多层次的非线性变换,从数据中学习表示层次特征,从而实现对复杂模式的建模和学习。深度学习算法在图像识别、语音识别、自然语言处理等领域取得了巨大的成功,成为人工智能领域的重要技术之一。
98 3
|
4月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】凸集、凸函数、凸优化、凸优化问题、非凸优化问题概念详解
本文解释了凸集、凸函数、凸优化以及非凸优化的概念,并探讨了它们在机器学习中的应用,包括如何将非凸问题转化为凸问题的方法和技术。
463 0
|
6月前
|
机器学习/深度学习 人工智能 算法
【机器学习】深度探索:从基础概念到深度学习关键技术的全面解析——梯度下降、激活函数、正则化与批量归一化
【机器学习】深度探索:从基础概念到深度学习关键技术的全面解析——梯度下降、激活函数、正则化与批量归一化
83 3
|
6月前
|
机器学习/深度学习 数据采集 人工智能
机器学习基础概念与初步探索
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。作为人工智能的核心,机器学习是使计算机具有智能的根本途径。未来的机器学习将具有更高的自动化水平,能够处理更加复杂和抽象的问题,为人类带来更多的便利和价值。
51 2