在一头扎进机器学习前应该知道的那些事儿

简介: 本文简单总结了机器学习的几大任务及其对应的方法,方便初学者根据自己的任务选择合适的方法。当掌握机器学习基本知识以及清楚自己所要处理的任务后,应用机器学习就不会那么难了。

机器学习一直是一个火热的研究领域,深度学习方法的提出又为这个领域添了一把火,使得很多人对该领域感兴趣并想投身于该领域的研究之中。那么,对于想从事机器学习领域的人来说,有哪些是应该首先了解的内容呢?本文将简单的介绍下机器学习的基本相关知识。
机器学习是指使计算机系统使用统计技术学习数据的过程,而不需要具体的编程程序。该方法是一个主动学习的算法,使得它能够从数据中学习并进行预测。机器学习与计算统计、数学优化以及数据学习密切相关,通常被用来进行预测、分析等任务。机器学习一般用于处理两类任务:

  • 有监督学习:输入给计算机的示例带有标签(期望输出),基于标签调整建立的模型,以学习输入到输出的映射规则。
  • 无监督学习:输入给计算机的示例没有标签,建立的模型必须通过自身学习产生输出。无监督学习涉及到从数据中发现隐藏的模式,包含特征学习。
    机器学习这个术语对于大多非该领域的人来说听起来很高级,但其实不然。只要你清楚机器学习的基本概念以及相关方法后,机器学习其实很简单,即根据相关任务,选择合适的机器学习方法,让机器学习并处理特征以完成相应的任务。因此,在学习和应用机器学习之前,我们首先应该明确自己的任务是什么,以及适合使用哪种机器学习方法来完成。

如果我们想了解算法背后的基本理论以及其工作原理,那么精通概率与统计、线性代数和微积分对我们而言显得至关重要。此外,了解诸如Python等编程语言将使你能够容易得实现相关算法,理论基础与编程能力二者在手,机器学习我有。此外,理解相关的数学知识和应用也是很有必要的,无论是通过线下自学或者是网络在线培训等学习方法,都必须实践,实践可以增加自己对基本知识的理解,同时也能锻炼其编程能力。
在学习机器学习之前,掌握以下知识是很有必要的:

  • 线性代数
  • 微积分
  • 概率论
  • 程序设计
  • 最优化理论
    下面是一些最常见的机器学习任务以及相关方法,对其理解后方便在后续工程中应用。

回归

回归主要涉及连续变量或数值变量的估计,比如估计房价、股票价格、产品价格等使用回归估计。即根据相关的数据建立回归曲线,对新的数据进行预测估计。以下机器学习方法用于解决回归问题:

  • 核回归(Kernel regression)
  • 支持向量回归(Support vector regression)
  • 高斯过程回归(Gaussian process regression)
  • 线性回归(Linear regression)
  • LASSO回归(Least absolute shrinkage and selection operator)
  • 回归树(Regression tree)

分类

分类与离散变量或数据类别的预测有关。比如区分垃圾邮件、病人患有哪种疾病、交易是否属于欺诈行为等任务,都是使用分类方法处理的。以下方法可以用于解决分类问题:

  • 核判别分析(Kernel discriminant analysis)
  • 人工神经网络(Artificial neural networks)
  • K邻近算法(K-nearests neighbors)
  • Boosted trees
  • 随机森林(Random forests)
  • 逻辑回归(Logistic regression)
  • 支持向量机(Support vector machine)
  • 深度学习(Deep learning)
  • 朴素贝叶斯(Naive Bayes)
  • 决策树(Decision trees)

聚类

聚类一般应用于数据自然分组。比如产品特征识别、客户细分等任务都是聚类的一些应用场景。以下机器学习方法用于聚类问题:

  • 均值漂移(Mean-shift)
  • K-均值(K-means)
  • 主题模型(Topic models)
  • 层次聚类(Hierarchical clustering)

多元查询

多元查询是用来寻找相似目标。下面的方法可用于解决与多元查询有关的问题:

  • 近邻取样(Nearest neighbors)
  • 最远邻居(Farthest neighbors)
  • 范围搜索(Range search)

降维

降维是指降低多个随机变量的维度,将其分为特征提取和特征选择。常用的降维方法如下:

  • 流线学习方法/核主成分分析(Manifold learning/KPCA)
  • 独立分量分析(Independent component analysis)
  • 主成分分析(Principal component analysis)
  • 非负矩阵分解(Non-negative matrix factorization)
  • 压缩感知(Compressed sensing)
  • 高斯图模型(Gaussian graphical models)

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

作者信息

Anusha Manchala,专注于机器学习、数据分析
个人主页:https://www.linkedin.com/in/anusha-manchala-932a4110b/
本文由阿里云云栖社区组织翻译。
文章原标题《What You Must Know Before You Dive Into Machine Learning》,译者:海棠,审校:Uncle_LLD
文章为简译,更为详细的内容,请查看原文

相关文章
|
1月前
|
机器学习/深度学习 数据可视化 算法
泰酷辣!探索七种常用的机器学习图型
泰酷辣!探索七种常用的机器学习图型
31 0
|
11月前
|
机器学习/深度学习 算法
瞎聊机器学习——集成学习
瞎聊机器学习——集成学习
|
机器学习/深度学习 自然语言处理 算法
做了 5 年机器学习研究,我发现了这 7 个真相
在Mindsdb从事 3 年自动机器学习工作后,我辞职了,至少我不会在短时间内从事任何与机器学习相关的职业工作。掐指一算,我已经做了 5 年机器学习研究,但直到今天,我才终于搞清楚了很多自己之前不知道的事物,甚至我还可能觉察到一些别人不知道的东西。
142 0
|
机器学习/深度学习 文字识别 算法
机器学习,你不得不掌握的十大算法(下)
通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。
90 0
机器学习,你不得不掌握的十大算法(下)
|
机器学习/深度学习 人工智能 编解码
天池读书会又来啦,五月场,数据分析、机器学习、深度学习、神经网络通吃!
天池读书会又来啦,五月场分享主题多样,包含了数据分析、机器学习、深度学习、神经网络等方面,相信总有你想看的。
605 0
天池读书会又来啦,五月场,数据分析、机器学习、深度学习、神经网络通吃!
|
机器学习/深度学习 人工智能 算法
AI搞了半天只是曲线拟合?贝叶斯网络之父力荐因果关系应用
作者 | Kurt Marko译者 | 核子可乐 AI 前线导读: 人工智能只是优秀的曲线拟合?近两年,关于这一观点的讨论从未停止,图灵奖获得者、贝叶斯网络之父 Judea Pearl 也参与其中,他一直自嘲自己是 AI 社区的反叛者,认为由于人类对智能的真正含义不完全理解而阻碍了人工智能的发展,他曾经在多个场合表达过这样的观点:人工智能领域的技术水平只不过是上一代机器已有功能的增强版——在大量数据中发现隐藏的规律性,所有令人印象深刻的深度学习成果都只是曲线拟合。
AI搞了半天只是曲线拟合?贝叶斯网络之父力荐因果关系应用
|
机器学习/深度学习 算法 数据可视化
机器学习实战之树回归
“回归”与“树” 在讲解树回归之前,我们看看回归和树巧妙结合的原因。 线性回归的弊端 线性回归需要拟合所有样本点,在特征多且特征关系复杂时,构建全局模型的想法就显得太难。
942 0
|
机器学习/深度学习 算法 数据挖掘
机器学习和统计学的“爱恨情仇”可以结束了
机器学习和统计学在数据科学的领域里,已经相爱相杀很多年。今天,就让我们跟随ML从业者和统计学家两者组成团队,解开两者这几十年的“爱恨情仇”。
2259 0