对数据科学家来说最重要的算法和统计模型

简介: 本文提供了工业中常用的关键算法和统计技术的概要,以及与这些技术相关的短缺资源。

作为一个在这个行业已经好几年的数据科学家,在LinkedInQuoLa上,我经常接触一些学生或者想转行的人,帮助他们进行机器学习的职业建议或指导方面相关的课程选择。一些问题围绕教育途径和程序的选择,但许多问题的焦点是今天在数据科学领域什么样的算法或模型是常见的。

由于可供选择的算法太多了,很难知道从哪里开始学起。课程可能包括在当今工业中使用的不是很典型的算法,而课程可能没有包含目前不是很流行的但特别有用的方法。基于软件的程序可以排除重要的统计概念,并且基于数学的程序可以跳过算法设计中的一些关键主题。

c296f0eeb7c5c17267bbbdf171b00274c5ea4f57 

我为一些有追求的数据专家整理了一个简短的指南,特别是关注统计模型和机器学习模型(有监督学习和无监督学习);这些主题包括教科书、毕业生水平的统计学课程、数据科学训练营和其它培训资源。(其中有些包含在文章的参考部分)。由于机器学习是统计学的一个分支,机器学习算法在技术上归类于统计学知识,还有数据挖掘和更多的基于计算机科学的方法。然而,由于一些算法与计算机科学课程的内容相重叠,并且因为许多人把传统的统计方法从新方法中分离出来,所以我将把列表中的两个分支也分开了。

442bb28c0d62a694dca1493f86ae9c204f15a08a 

统计学的方法包括在bootcamps和证书程序中概述的一些更常见的方法,还有一些通常在研究生统计学程序中所教授的不太常见的方法(但在实践中可以有很大的优势)。所有建议的工具都是我经常使用的工具:

1)广义线性模型,它构成了大多数监督机器学习方法的基础(包括逻辑回归和Tweedie回归,它概括了在工业中遇到的大多数计数或连续结果……

2) 时间序列方法(ARIMA, SSA, 基于机器学习的方法)

3) 结构方程建模 (模拟和测试介导途径)

4) 因子分析法(调查设计与验证的探索和验证)

5) 功率分析/试验设计 (特别是基于仿真的试验设计,以免分析过度)

6) 非参数检验(从零开始的推导, 尤其通过模拟)/MCMC

7) K均值聚类

8) 贝叶斯方法(Naïve Bayes, 贝叶斯模型求平均值, 贝叶斯自适应试验...)

9) 惩罚回归模型 (elastic net, LASSO, LARS...) ,通常给模型增加惩罚因素(SVM, XGBoost...), 这对于预测值超过观测值的数据集是有用的(常见于基因组学与社会科学研究)

10) 样条模型(MARS...) 用于灵活性建模过程

11)马尔可夫链和随机过程 (时间序列建模与预测建模的另一种方法)

12)缺失数据填补方案及其假设(missForest, MICE...)

13) 生存分析(非常有助于制造建模和消耗过程)

14) 混合建模

15) 统计推断与分组测试(A/B测试和在许多交易活动中实施更复杂的设计)

 

机器学习扩展了许多这样框架,特别是K均值聚类和广义线性建模。在许多行业中一些有用的常见技术(还有一些更模糊的算法,在bootcamps或证书程序中出人意料的有用,但学校里很少教) 包括:

1)回归/分类树(用于高精度、可解释性好、计算费用低的广义线性模型的早期推广)

2)维数约简(PCA和多样学习方法如MDStSNE)

3)经典前馈神经网络

4)装袋组合(构成了随机森林和KNN回归整合等算法的基础)

7)加速整合(这是梯度提升和XGBoost算法的基础)

8)参数优化或设计项目的优化算法(遗传算法,量子启发进化算法,模拟锻炼,粒子群优化)

9)拓扑数据分析工具,特别适合于小样本大小的无监督学习(持久同调, Morse-Smale聚类, Mapper...)

10)深度学习架构(一般的深度架构)

11) KNN局部建模方法(回归, 分类)

12)基于梯度的优化方法

13)网络度量与算法(中央度量法、中间性、多样性、熵、拉普拉斯算子、流行病扩散、谱聚类)

14)深度体系架构中的卷积和汇聚层(专门适用于计算机视觉和图像分类模型)

15)层次聚类 (聚类和拓扑数据分析工具相关)

16)贝叶斯网络(路径挖掘)

17)复杂性与动态系统(与微分方程有关,但通常用于模拟没有已知驱动程序的系统)

依靠所选择的行业,可能需要与自然语言处理(NLP)或计算机视觉相关的附加算法。然而,这些是数据科学和机器学习的专门领域,进入这些领域的人通常已经是那个特定领域的专家。

 

学术项目之外的一些学习这些方法的资源包括:

Christopher, M. B. (2016). 《模式识别与机器学习》,施普林格出版社,纽约。

Friedman, J., Hastie, T., & Tibshirani, R. (2001). 《统计学习的要素》(1, 337-387). 纽约: 统计中的斯普林格级数。

 

https://www.coursera.org/learn/machine-learning

http://professional.mit.edu/programs/short-programs/machine-learning-big-data

https://www.slideshare.net/ColleenFarrelly/machine-learning-by-analogy-59094152

 数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

以上为译文。

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《Key Algorithms and Statistical Models for Aspiring Data Scientists》,译者:Mags,审校:袁虎。

文章为简译,更为详细的内容,请查看原文

相关文章
|
11天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
40 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
11天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
52 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
22天前
|
机器学习/深度学习 人工智能 算法
青否数字人声音克隆算法升级,16个超真实直播声音模型免费送!
青否数字人的声音克隆算法全面升级,能够完美克隆真人的音调、语速、情感和呼吸。提供16种超真实的直播声音模型,支持3大AI直播类型和6大核心AIGC技术,60秒快速开播,助力商家轻松赚钱。AI讲品、互动和售卖功能强大,支持多平台直播,确保每场直播话术不重复,智能互动和真实感十足。新手小白也能轻松上手,有效规避违规风险。
|
24天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
28天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
72 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 人工智能 算法
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
鸟类识别系统。本系统采用Python作为主要开发语言,通过使用加利福利亚大学开源的200种鸟类图像作为数据集。使用TensorFlow搭建ResNet50卷积神经网络算法模型,然后进行模型的迭代训练,得到一个识别精度较高的模型,然后在保存为本地的H5格式文件。在使用Django开发Web网页端操作界面,实现用户上传一张鸟类图像,识别其名称。
110 12
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
|
1月前
|
机器学习/深度学习 数据采集 算法
如何在一夜之间成为模型微调大师?——从零开始的深度学习修炼之旅,让你的算法功力飙升!
【10月更文挑战第5天】在机器学习领域,预训练模型具有强大的泛化能力,但直接使用可能效果不佳,尤其在特定任务上。此时,模型微调显得尤为重要。本文通过图像分类任务,详细介绍如何利用PyTorch对ResNet-50模型进行微调,包括环境搭建、数据预处理、模型加载与训练等步骤,并提供完整Python代码。通过调整超参数和采用早停策略等技巧,可进一步优化模型性能。适合初学者快速上手模型微调。
101 8
|
1月前
|
机器学习/深度学习 算法 搜索推荐
django调用矩阵分解推荐算法模型做推荐系统
django调用矩阵分解推荐算法模型做推荐系统
30 4
|
2月前
|
算法
基于SIR模型的疫情发展趋势预测算法matlab仿真
该程序基于SIR模型预测疫情发展趋势,通过MATLAB 2022a版实现病例增长拟合分析,比较疫情防控力度。使用SIR微分方程模型拟合疫情发展过程,优化参数并求解微分方程组以预测易感者(S)、感染者(I)和移除者(R)的数量变化。![]该模型将总人群分为S、I、R三部分,通过解析或数值求解微分方程组预测疫情趋势。
|
2月前
|
机器学习/深度学习 数据采集 存储
一文读懂蒙特卡洛算法:从概率模拟到机器学习模型优化的全方位解析
蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考,与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解,因命名灵感源自蒙特卡洛赌场。如今,蒙特卡洛方法广泛应用于机器学习领域,尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间,蒙特卡洛方法能够高效地找到优质组合,适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用,并对比了其与网格搜索方法的性能。
309 1
下一篇
无影云桌面