数据科学家用得最多的十种数据挖掘算法

简介:

图 1 :数据科学家使用度最高的 10 大算法

文末有全部算法的集合列表

每个受访者平均使用 8.1 个算法,这相比于 2011 的相似调查显示的结果有了巨大的增长

与 2011 年关于数据分析/数据挖掘的调查相比,我们注意到最常用的方法仍然是回归、聚类、决策树/Rules 和可视化。相对来说最大的增长是由 (pct2016 /pct2011 – 1) 测定的以下算法:

  • Boosting,从 2011 年的 23.5% 至 2016 年的 32.8%,同比增长 40%
  • 文本挖掘,从 2011 年的 27.7% 至 2016 年的 35.9%,同比增长 30%
  • 可视化,从 2011 年的 38.3% 至 2016 年的 48.7%,同比增长 27%
  • 时间序列/序列分析,从 2011 年的 29.6% 至 2016 年的 37.0%,同比增长 25%
  • 异常/偏差检测,从 2011 年的 16.4% 至 2016 年的 19.5%,同比增长 19%
  • 集成方法,从 2011 年的 28.3%至 2016 年的 33.6%,同比增长 19%
  • 支持向量机,从 2011 年的 28.6% 至 2016 年的 33.6%,同比增长 18%
  • 回归,从 2011 年的 57.9% 至 2016 年的 67.1%,同比增长 16%

最受欢迎算法在 2016 年的调查中有了新的上榜名单:

  • K-近邻,46%
  • 主成分分析,43%
  • 随机森林,38%
  • 优化,24%
  • 神经网络 – 深度学习,19%
  • 奇异值分解,16%

最大幅下降的有:

  • 关联规则,从 2011 年的 28.6% 至 2016 年的 15.3%,同比下降 47%
  • 隆起造型,从 2011 年的 4.8% 至 2016 年的 3.1%,同比下降 36%
  • 因素分析,从 2011 年的 18.6% 至 2016 年的 14.2%,同比下降 24%
  • 生存分析,从 2011 年的 9.3% 至 2016 年的 7.9%,同比下降 15%

下表显示了不同的算法类型的使用:监督算法、无监督算法、元算法,以及职业类型决定的对算法的使用。我们排除 NA(4.5%)和其他(3%)的职业类型。

职业类型% 投票者比例平均算法使用个数% 监督算法使用度% 无监督算法使用度% 元使用度%其他方法使用度

表 1:根据职业类型显示的不同算法使用度

我们注意到,几乎每个人都使用监督学习算法。

政府和产业业数据科学家比学生和学术研究人员使用更多不同类型的算法,而产业数据科学家们更倾向于使用元算法。

接下来,我们根据职业类型分析了前 10 名的算法+深度学习使用情况。

表 2:根据职业类型分类的 10 大算法+深度学习使用情况

为了更明显的看到差异,我们计算了具体职业分类相比于平均算法使用度的一个算法偏差,即偏差(ALG,类型)=使用(ALG,类型)/使用(ALG,所有的)

图 2:职业对算法的使用偏好

我们注意到,产业数据科学家们更倾向于使用回归、可视化、统计、随机森林和时间序列。政府/非营利更倾向于使用可视化、主成分分析和时间序列。学术研究人员更倾向于使用主成分分析和深度学习。学生普遍使用更少的算法,但多为文本挖掘和深度学习。

接下来,我们看看某一具体地域的参与度,表示整体的 KDnuggets 的用户:

  • 美国/加拿大,40%
  • 欧洲,32%
  • 亚洲,18%
  • 拉丁美洲,5%
  • 非洲/中东,3.4%
  • 澳洲/新西兰,2.2%

由于在 2011 年的调查中,我们将产业/政府分在了一组,而将学术研究/学生分在了第二组,并计算了算法对于业界/政府的亲切度:


 
 
  1. N(Alg,Ind_Gov) / N(Alg,Aca_Stu)  
  2. ------------------------------- - 1  
  3. N(Ind_Gov) / N(Aca_Stu) 

因此亲切度为 0 的算法表示它在产业/政府和学术研究人员或学生之间的使用情况对等。越高 IG 亲切度表示算法越被产业界普遍使用,反之越接近「学术」。

最「产业」的算法是:

  • 异常检测,1.61
  • 生存分析,1.39
  • 因子分析,0.83
  • 时间序列/序列,0.69
  • 关联规则,0.5

而 uplifting modeling 又是最「产业的算法」,令人惊讶的发现是,它的使用率极低 – 只有 3.1% – 是本次调查的算法中最低的。

最学术的算法是:

  • 常规神经网络,-0.35
  • 朴素贝叶斯,-0.35
  • 支持向量机,-0.24
  • 深度学习,-0.19
  • EM,-0.17

下图显示了所有的算法及其产业/学术亲切度。

图 3:KDnuggets 投票:最常被数据科学家使用的算法:产业界 VS 学术界

下表有关于算法的细节、两次调查中使用算法的比例、以及像上面解释的产业亲切度。

接下来的图表展示了算法的细节,按列

  • N:根据使用度排名
  • 算法:算法名称,
  • 类型:S – 监督,U – 无监督,M – 元,Z – 其他,
  • 在 2016 年调查中使用这种算法的调查者比例
  • 在 2011 年调查中使用这种算法的调查者比例
  • 变动(%2016 年/2011% – 1),
  • 产业亲切度(如上所述)

表 3:KDnuggets 2016 调查:数据科学家使用的算法


本文作者:佚名

来源:51CTO

相关文章
|
6月前
|
机器学习/深度学习 数据采集 算法
数据科学基础:数据挖掘与分析的技术探讨
【6月更文挑战第15天】本文探讨数据科学中的数据挖掘与分析技术,阐述其基础理论,包括数据预处理、探索和模型建立,并介绍统计分析、机器学习、深度学习等方法。面对数据质量、算法选择等挑战,数据挖掘在智能决策、个性化服务、预测等方面展现广阔前景,将在跨领域融合中发挥更大作用,同时也需关注隐私安全与技术伦理。
|
7月前
|
机器学习/深度学习 自然语言处理 数据可视化
【Python百宝箱】数据科学的黄金三角:数据挖掘和聚类
【Python百宝箱】数据科学的黄金三角:数据挖掘和聚类
232 2
|
机器学习/深度学习 人工智能 算法
数据科学、机器学习和数据挖掘的差异
数据科学、机器学习和数据挖掘的差异
194 0
数据科学、机器学习和数据挖掘的差异
|
机器学习/深度学习 算法 数据挖掘
程序员学数据科学需要掌握的常用算法和方法术语
  数据科学是一门有关机器学习、统计学与数据挖掘的交叉学科,它的目标是通过算法和统计分析方法从现存数据中获取新知识。下面小编将介绍数据科学中的算法和方法术语。   k最近邻算法:一种预测未知数据项的算法,未知数据项(的值)近似于其k个最近邻居的多数值。朴素贝叶斯分类器:使用关于条件概率的贝叶斯定理,即P(A|B)=(P(B|A) * P(A))/P(B),来分类数据项的一种方法,假设数据的特定变量之间相互独立。决策树:一种模型,根据树上的分支与实际数据项之间的匹配属性,将数据项分类到叶子节点中的一个类中。随机决策树:决策树的一种,其中的每个分支在构建时仅使用可用变量的随机子集。随机森林:基
147 0
带你读《计算机时代的统计推断:算法、演化和数据科学》之三:贝叶斯推断
本书以丰富的案例介绍了计算机时代下的统计推断的发展脉络,从理论的角度剖析统计推断的各类算法、证据等,揭示统计推断如何推动当今大数据、数据科学、机器学习等领域的快速发展并引领数据分析的变革,最后展望了统计学和数据科学的未来方向。
带你读《计算机时代的统计推断:算法、演化和数据科学》之二:频率学派推断
本书以丰富的案例介绍了计算机时代下的统计推断的发展脉络,从理论的角度剖析统计推断的各类算法、证据等,揭示统计推断如何推动当今大数据、数据科学、机器学习等领域的快速发展并引领数据分析的变革,最后展望了统计学和数据科学的未来方向。
带你读《计算机时代的统计推断:算法、演化和数据科学》之一:算法与推断
本书以丰富的案例介绍了计算机时代下的统计推断的发展脉络,从理论的角度剖析统计推断的各类算法、证据等,揭示统计推断如何推动当今大数据、数据科学、机器学习等领域的快速发展并引领数据分析的变革,最后展望了统计学和数据科学的未来方向。

热门文章

最新文章