成为顶尖算法专家需要知道哪些算法?

简介: 顶尖的机器学习专家需要的算法,要不要?

 c3c4a0776dbb458f3fa9f5a0c7f07b62b8a5cde4

机器学算法

有两种方法可以对你现在遇到的所有机器学习算法进行分类。

  • 第一种算法分组是学习风格的。
  • 第二种算法分组是通过形式或功能相似。

通常,这两种方法都能概括全部的算法。但是,我们将重点关注通过相似性对算法进行分组。

通过学习风格分的机器学算法

2efcfa535de464d81d0317762c203383de69d046

算法可以通过不同的方式对问题进行建模,但是,无论我们想要什么结果都需要数据。此外,算法在机器学习和人工智能中很流行。让我们来看看机器学习算法中的三种不同学习方式:

监督学习

0be611fb007396b835f08c4498fe15b955e936a7

基本上,在监督机器学习中,输入数据被称为训练数据,并且具有已知的标签或结果,例如垃圾邮件/非垃圾邮件或股票价格。在此,通过训练过程中准备模型。此外,还需要做出预测。并且在这些预测错误时予以纠正。训练过程一直持续到模型达到所需水平。

  • 示例问题:分类和回归。
  • 示例算法:逻辑回归和反向传播

督学

c4d65be680441e0964dc1711e4d186a3afbc625a

在无监督机器学习中,输入数据未标记且没有已知结果。我们必须通过推导输入数据中存在的结构来准备模型。这可能是提取一般规则,但是我们可以通过数学过程来减少冗余。

  • 示例问题:聚类,降维和关联规则学习。
  • 示例算法:Apriori算法和k-Means。

督学

5ba42cb8ad740e952815f49e15e804ee4e5906a4

输入数据是标记和未标记示例的混合。存在期望的预测问题,但该模型必须学习组织数据以及进行预测的结构。

  • 示例问题:分类和回归。
  • 示例算法:其他灵活方法的扩展。

由功能的相似性分的算法

ML算法通常根据其功能的相似性进行分组。例如,基于树的方法以及神经网络的方法。但是,仍有算法可以轻松适应多个类别。如学习矢量量化,这是一个神经网络方法和基于实例的方法。

算法

f3c1476c704255356c43093d31706a95ad2321e7

回归算法涉及对变量之间的关系进行建模,我们在使用模型进行的预测中产生的错误度量来改进。

这些方法是数据统计的主力,此外,它们也已被选入统计机器学习。最流行的回归算法是:

  • 普通最小二乘回归(OLSR);
  • 线性回归;
  • Logistic回归;
  • 逐步回归;
  • 多元自适应回归样条(MARS);
  • 局部估计的散点图平滑(LOESS);

基于例的算法

ba92fc3f3bcf683d6a6e8f48b2140f40698a0658

该类算法是解决实例训练数据的决策问题。这些方法构建了示例数据的数据库,它需要将新数据与数据库进行比较。为了比较,我们使用相似性度量来找到最佳匹配并进行预测。出于这个原因,基于实例的方法也称为赢者通吃方法和基于记忆的学习,重点放在存储实例的表示上。因此,在实例之间使用相似性度量。最流行的基于实例的算法是:

  • k-最近邻(kNN);
  • 学习矢量量化(LVQ);
  • 自组织特征映射(SOM);
  • 本地加权学习(LWL);

化算法

5b0b4cab677f42bfbb71b2831190ec5daf168682

我在这里列出了正则化算法,因为它们很流行,功能强大。并且通常对其他方法进行简单的修改,最流行的正则化算法是:

  • 岭回归;
  • 最小绝对收缩和选择算子(LASSO);
  • 弹性网回归;
  • 最小角回归(LARS);

决策算法

5c3a558dc9757efcb275fb550ba8341860b40af5

决策树方法用于构建决策模型,这是基于数据属性的实际值。决策在树结构中进行分叉,直到对给定记录做出预测决定。决策树通常快速准确,这也是机器学习从业者的最爱的算法。最流行的决策树算法是:

  • 分类和回归树(CART);
  • 迭代Dichotomiser 3(ID3);
  • C4.5和C5.0(强大方法的不同版本);
  • 卡方自动交互检测(CHAID);
  • 决策树桩;
  • M5;
  • 条件决策树;

贝叶斯算

ec4d9a220fba8eb24be0c4c5f79516c9a651b877

这些方法适用于贝叶斯定理的问题,如分类和回归。最流行的贝叶斯算法是:

  • 朴素贝叶斯;
  • 高斯朴素贝叶斯;
  • 多项朴素贝叶斯;
  • 平均一依赖估计量(AODE);
  • 贝叶斯信念网络(BBN);
  • 贝叶斯网络(BN);

算法

c8eeb4a954adfd0efd9389348f9ba5fccbe73ae3

几乎所有的聚类算法都涉及使用数据中的固有结构,这需要将数据最佳地组织成最大共性的组。最流行的聚类算法是:

  • K-均值;
  • K-平均;
  • 期望最大化(EM);
  • 分层聚类;

联规则算法

c12d22f3441bfa6d4eb92783bfc3a81ce0b258e3

关联规则学习方法提取规则,它可以完美的解释数据中变量之间的关系。这些规则可以在大型多维数据集中被发现是非常重要的。最流行的关联规则学习算法是:

  • Apriori算法;
  • Eclat算法;

人工神算法

e2288810c245a73a1235312205de934d239dfbbc

这些算法模型大多受到生物神经网络结构的启发。它们可以是一类模式匹配,可以被用于回归和分类问题。它拥有一个巨大的子领域,因为它拥有数百种算法和变体。最流行的人工神经网络算法是:

  • 感知机;
  • 反向传播;
  • Hopfield神经网络;
  • 径向基函数神经网络(RBFN)

深度学算法

d1bae4ddb2bd8165627d4019fbcfe101cd17cb2d

深度学习算法是人工神经网络的更新。他们更关心构建更大更复杂的神经网络。最流行的深度学习算法是:

  • 深玻尔兹曼机(DBM);
  • 深信仰网络(DBN);
  • 卷积神经网络(CNN);
  • 堆叠式自动编码器;

算法

2c6c66be28080e0745ab977c35784768bac76838

与聚类方法一样,维数减少也是为了寻求数据的固有结构。通常,可视化维度数据是非常有用的。此外,我们可以在监督学习方法中使用它。

  • 主成分分析(PCA);
  • 主成分回归(PCR);
  • 偏最小二乘回归(PLSR);
  • Sammon Mapping;
  • 多维缩放(MDS);
  • 投影追踪;
  • 线性判别分析(LDA);
  • 高斯混合判别分析(MDA);
  • 二次判别分析(QDA);
  • 费舍尔判别分析(FDA);

常用机器学算法列表

03125469bfbae46973234c7f4f3169c52ad4e6d5

朴素叶斯分器机器学算法

通常,网页、文档和电子邮件进行分类将是困难且不可能的。这就是朴素贝叶斯分类器机器学习算法的用武之地。分类器其实是一个分配总体元素值的函数。例如,垃圾邮件过滤是朴素贝叶斯算法的一种流行应用。因此,垃圾邮件过滤器是一种分类器,可为所有电子邮件分配标签“垃圾邮件”或“非垃圾邮件”。基本上,它是按照相似性分组的最流行的学习方法之一。这适用于流行的贝叶斯概率定理。

K-means:聚机器学算法

通常,K-means是用于聚类分析的无监督机器学习算法。此外,K-Means是一种非确定性和迭代方法,该算法通过预定数量的簇k对给定数据集进行操作。因此,K-Means算法的输出是具有在簇之间分离的输入数据的k个簇。

支持向量机学算法

基本上,它是用于分类或回归问题的监督机器学习算法。SVM从数据集学习,这样SVM就可以对任何新数据进行分类。此外,它的工作原理是通过查找将数据分类到不同的类中。我们用它来将训练数据集分成几类。而且,有许多这样的线性超平面,SVM试图最大化各种类之间的距离,这被称为边际最大化。

SVM分为两类:

  • 线性SVM:在线性SVM中,训练数据必须通过超平面分离分类器。
  • 非线性SVM:在非线性SVM中,不可能使用超平面分离训练数据。

Apriori机器学算法

这是一种无监督的机器学习算法。我们用来从给定的数据集生成关联规则。关联规则意味着如果发生项目A,则项目B也以一定概率发生,生成的大多数关联规则都是IF_THEN格式。例如,如果人们购买iPad,那么他们也会购买iPad保护套来保护它。Apriori机器学习算法工作的基本原理:如果项目集频繁出现,则项目集的所有子集也经常出现。

线性回归机器学习算

它显示了2个变量之间的关系,它显示了一个变量的变化如何影响另一个变量。

决策机器学算法

决策树是图形表示,它利用分支方法来举例说明决策的所有可能结果。在决策树中,内部节点表示对属性的测试。因为树的每个分支代表测试的结果,并且叶节点表示特定的类标签,即在计算所有属性后做出的决定。此外,我们必须通过从根节点到叶节点的路径来表示分类。

随机森林机器学算法

它是首选的机器学习算法。我们使用套袋方法创建一堆具有随机数据子集的决策树。我们必须在数据集的随机样本上多次训练模型,因为我们需要从随机森林算法中获得良好的预测性能。此外,在这种集成学习方法中,我们必须组合所有决策树的输出,做出最后的预测。此外,我们通过轮询每个决策树的结果来推导出最终预测。

Logistic机器学算法

这个算法的名称可能有点令人困惑,Logistic回归算法用于分类任务而不是回归问题。此外,这里的名称“回归”意味着线性模型适合于特征空间。该算法将逻辑函数应用于特征的线性组合,这需要预测分类因变量的结果。

结论

我们研究了机器学习算法,并了解了机器学习算法的分类:回归算法、基于实例的算法、正则化算法、决策树算法、贝叶斯算法、聚类算法、关联规则学习算法、人工神经网络算法、深度学习算法、降维算法、集成算法、监督学习、无监督学习、半监督学习、朴素贝叶斯分类器算法、K-means聚类算法、支持向量机算法、Apriori算法、线性回归和Logistic回归。熟悉这类算法奖有助你成为机器学习领域的专家!

本文由阿里云云栖社区组织翻译。

文章原标题《top-machine-learning-algorithm-you-should-know-to》

作者:Rinu Gour 译者:虎说八道,审校:。

文章为简译,更为详细的内容,请查看原文

相关文章
|
5月前
|
存储 人工智能 自然语言处理
算法、系统和应用,三个视角全面读懂混合专家(MoE)
【8月更文挑战第17天】在AI领域,混合专家(MoE)模型以其独特结构成为推动大型语言模型发展的关键技术。MoE通过动态选择专家网络处理输入,实现条件计算。稀疏型MoE仅激活部分专家以减少计算负担;软MoE则加权合并专家输出提升模型稳定性。系统层面,MoE优化计算、通信与存储,利用并行化策略提高效率。在NLP、CV、推荐系统等领域展现强大应用潜力,但仍面临训练稳定性、可解释性等挑战。[论文链接: https://arxiv.org/pdf/2407.06204]
233 63
|
机器学习/深度学习 人工智能 自然语言处理
阿里巴巴资深算法专家张伟:百科类知识图谱构建和应用已到深水区,行业和多模态知识图谱引关注
知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融、电商、医疗、政务等众多领域,经过短短几年的发展,热度依旧不减,未来,知识图谱又将面临哪些新的挑战?又有哪些发展趋势呢?
|
机器学习/深度学习 自然语言处理 文字识别
算法专家解读 | 开放搜索教育搜题能力和实践
达摩院算法专家--徐光伟(昆卡)聚焦在线教育行业的拍照搜题场景,介绍如何应用开放搜索来构建更高搜索性能及搜题准确率的搜题系统,从而助力在线教育行业客户掌握更高层次用户体验的获客工具。
1735 0
算法专家解读 | 开放搜索教育搜题能力和实践
|
机器学习/深度学习 存储 人工智能
精彩回顾|阿里算法专家详解,最易用强化学习开源库EasyRL从入门到实践
精彩回顾|阿里算法专家详解,最易用强化学习开源库EasyRL从入门到实践
430 0
|
人工智能 达摩院 算法
达摩院高级算法专家为你揭秘人工智能
为你揭开阿里大牛的神秘面纱 学长学姐茶话会】菲莹 达摩院高级算法专家
达摩院高级算法专家为你揭秘人工智能
|
人工智能 达摩院 算法
达摩院高级算法专家为你揭秘人工智能
直播主题: 达摩院高级算法专家为你揭秘人工智能 直播时间: 9月24日20:00-20:50
达摩院高级算法专家为你揭秘人工智能
|
数据采集 人工智能 智能设计
阿里云达摩院资深算法专家浅谈:视觉生产技术探索及应用
本次我们邀请到了阿里巴巴达摩院的资深算法专家谢宣松,来给大家分享基于阿里云在视觉生产技术上的探索和应用。
阿里云达摩院资深算法专家浅谈:视觉生产技术探索及应用
|
机器学习/深度学习 人工智能 自然语言处理
【阿里巴巴搜索推荐事业部】招聘知识图谱、自然语言处理算法专家
我们旨在打造全球最大的中文电商知识图谱,支持包括淘宝、天猫乃至海外电商在内整个阿里集团的推荐、搜索、广告业务,每天服务上亿用户。从电商场景下的用户需求出发,打造一个连接商品,用户,知识,乃至各类开放领域知识、常识的大规模语义网络,并且在此基础上研究新一代基于知识图谱的智能搜索、推荐、问答技术。 我们已正式发布阿里电商知识图谱AliCoCo(Alibaba E-Commerce Cognitive Concept Net)于SIGMOD,也是阿里知识图谱首次在国际顶会上正式披露大规模领域知识图谱。
2496 0
【阿里巴巴搜索推荐事业部】招聘知识图谱、自然语言处理算法专家
|
机器学习/深度学习 人工智能 自然语言处理
【阿里巴巴计算平台事业部招聘】深度学习算法研发工程师/专家
阿里巴巴计算平台事业部(贾扬清的团队),人工智能平台招聘。
2193 0

热门文章

最新文章