Interview:机器学习算法工程师求职九大必备技能之【数学基础、工程能力、特征工程、模型评估、优化算法、机器学习基本概念、经典机器学习模型、深度学习模型、业务与应用】(建议收藏,持续更新)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: Interview:机器学习算法工程师求职九大必备技能之【数学基础、工程能力、特征工程、模型评估、优化算法、机器学习基本概念、经典机器学习模型、深度学习模型、业务与应用】(建议收藏,持续更新)


目录

一、数学基础

1.1、概率论

1.2、线性代数

1.3、微积分

1.4、凸优化

1.5、信息论

二、工程能力

2.1、数据结构与算法

(1)、树与相关算法

(2)、图与相关算法

(3)、哈希表

(4)、矩阵运算与优化

2.2、大数据处理

(1)、MapReduce

(2)、Spark

(3)、HiveQL

(4)、Storm

2.3、机器学习平台

(1)、TensorFlow

(2)、Torch

(3)、Theano

2.4、并行计算

2.5、数据库和数据仓库

2.6、系统服务架构

三、特征工程

3.1、特征离散化与归一化

3.2、特征组合

3.3、特征选择

3.4、词嵌入表示

四、模型评估

4.1、评价指标

4.2、A/B测试

4.3、过拟合与欠拟合

4.4、超参数选择

五、优化算法

5.1、损失函数

5.2、正则化

5.3、EM算法

5.4、梯度下降/随机梯度下降

5.5、反向传播

5.6、梯度验证

5.7、Momentum

5.8、AdaGrad

5.9、Adam

六、机器学习基本概念和分类

6.1、基本概念

(1)、假设空间

(2)、训练/测试数据

(3)、标注

(4)、损失函数

6.2、按数据分类

(1)、分类

(2)、回归

(3)、序列标注

6.3、按监督分类

(1)、监督学习

(2)、非监督学习

(3)、强化学习

6.4、按模型分类

(1)、生成式模型

(2)、判别式模型

七、经典机器学习模型

7.1、监督学习

(1)、经典算法

(2)、概率图模型

7.2、非监督学习

(1)、层次聚类

(2)、k均值聚类

(3)、高斯混合模型

(4)、主题模型

7.3、集成学习

(1)、Bagging

(2)、Boosting

(3)、GBDT

(4)、随机森林

7.4、降维算法

7.5、采样

7.6、强化学习

八、深度学习模型

8.1、前向神经网络

(1)、多层感知机

(2)、卷积神经网络

(3)、深度残差网络

(4)、自组织映射神经网络

(5)、受限玻尔兹曼机

8.2、循环神经网络

(1)、循环神经网络

(2)、长短期记忆模型

(3)、注意力机制

(4)、Seq2Seq

8.3、深度学习优化技巧

(1)、批量归一化

(2)、Dropout

(3)、激活函数

8.4、强化学习

8.5、生成式对抗网络

九、业务与应用

9.1、计算机视觉

9.2、自然语言处理

9.3、推荐系统

9.4、计算广告

9.5、智能游戏


相关文章

AI:几张图理清人工智能与机器学习、知识发现、数据挖掘、统计学、模式识别、神经计算学、数据库之间的暧昧关系

一、数学基础

相关文章

ML与math:机器学习与高等数学基础概念、代码实现、案例应用之详细攻略——基础篇

ML与math:机器学习与高等数学基础概念、代码实现、案例应用之详细攻略——进阶篇

DL之simpleNet:利用自定义的simpleNet(设好权重)对新样本进行预测、评估、输出梯度值

1.1、概率论

  • 常用概率分布
  • 大数定理和中心极限定理
  • 假设检验
  • 贝叶斯理论

1.2、线性代数

1.3、微积分

1.4、凸优化

1.5、信息论

二、工程能力

2.1、数据结构与算法

相关文章

Algorithm:【Algorithm算法进阶之路】之数据结构二十多种算法演示

Algorithm:【Algorithm算法进阶之路】之十大经典排序算法

Algorithm:【Algorithm算法进阶之路】之数据结构基础知识

Algorithm:【Algorithm算法进阶之路】之数据结构相关习题(数组、字符串、链表、栈、队列、树、图、哈希)

Algorithm:【Algorithm算法进阶之路】之算法中的数学编程(时间速度、进制转换、排列组合、条件概率、斐波那契数列)相关习题

Algorithm:【Algorithm算法进阶之路】之算法(查找、排序、递归、复杂度、高级算法)相关习题

Algorithm:【Algorithm算法进阶之路】之机器学习相关习题

Algorithm:【Algorithm算法进阶之路】之Python语言相关习题

(1)、树与相关算法

(2)、图与相关算法

(3)、哈希

(4)、矩阵运算与优化

2.2、大数据处理

相关文章

BigData:大数据开发的简介、核心知识(linux基础+Java/Python编程语言+Hadoop{HDFS、HBase、Hive}+Docker)、经典场景应用之详细攻略

Job:人工智能&大数据的相关职位——【数据分析师】的简介、技能、待遇、进阶的详细攻略

(1)、MapReduce

(2)、Spark

(3)、HiveQL

(4)、Storm

2.3、机器学习平台

相关文章

DL框架:主流深度学习框架(TensorFlow/Pytorch/Caffe/Keras/CNTK/MXNet/Theano/PaddlePaddle)简介、多个方向比较、案例应用之详细攻略

DL框架之MXNet :深度学习框架之MXNet 的简介、安装、使用方法、应用案例之详细攻略

DL框架之Caffe:深度学习框架之Caffe的简介、安装、使用方法详细攻略

DL之paddlepaddle:百度深度学习框架paddlepaddle飞桨的简介、安装、使用方法之详细攻略

DL:深度学习框架Pytorch、 Tensorflow各种角度对比

DL框架之Tensorflow:深度学习框架Tensorflow的简介、安装、使用方法之详细攻略

DL框架之TensorFlow:深度学习框架TensorFlow Core(低级别TensorFlow API)的简介、安装、使用方法之详细攻略

DL框架之PyTorch:深度学习框架PyTorch的简介、安装、使用方法之详细攻略

DL框架之darknet:深度学习框架darknet的简介、安装、使用方法的详细攻略

DL框架之AutoKeras框架:深度学习框架AutoKeras框架的简介、特点、安装、使用方法详细攻略

DL框架之Keras:深度学习框架Keras框架的简介、安装(Python库)、相关概念、Keras模型使用、使用方法之详细攻略

(1)、TensorFlow

(2)、Torch

(3)、Theano

2.4、并行计算

2.5、数据库和数据仓库

Database之SQLSever:SQLSever数据库管理学习并深入理解SQL命令语句进阶综合篇《初级→中级→高级》(持续更新,建议收藏)

2.6、系统服务架构

三、特征工程

相关文章

ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析、特征工程、科学预测等)的简介、流程、案例应用执行详细攻略

ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略

ML之FE:数据处理—特征工程的简介、使用方法、案例应用之详细攻略

 

3.1、特征离散化与归一化

3.2、特征组合

3.3、特征选择

3.4、词嵌入表示

四、模型评估

相关文章

ML之模型评价指标(损失函数):基于不同机器学习框架(sklearn/TF)下算法的模型评估函数(Scoring/metrics)集合(仅代码实现)

4.1、评价指标

4.2、A/B测试

4.3、过拟合与欠拟合

DL之DNN优化技术:DNN中抑制过拟合/欠拟合、提高泛化能力技术的简介、使用方法、案例应用详细攻略

4.4、超参数选择

DL之模型调参:深度学习算法模型优化参数之对深度学习模型的超参数采用网格搜索进行模型调优(建议收藏)

五、优化算法

5.1、损失函数

ML之LF:机器学习中常见损失函数(LiR损失、L1损失、L2损失、Logistic损失)求梯度/求导、案例应用之详细攻略

ML之LF:机器学习中常见的损失函数(连续型/离散型)的简介、损失函数/代价函数/目标函数之间区别、案例应用之详细攻略

5.2、正则化

AI:神经网络调参(数据、层数、batch大小,学习率+激活函数+正则化+分类/回归)并进行结果可视化

5.3、EM算法

5.4、梯度下降/随机梯度下降

5.5、反向传播

5.6、梯度验证

5.7、Momentum

DL之DNN优化技术:GD、SGD、Momentum、NAG、Ada系列、RMSProp各种代码实现之详细攻略

5.8、AdaGrad

5.9、Adam

六、机器学习基本概念和分类

6.1、基本概念

(1)、假设空间

(2)、训练/测试数据

(3)、标注

(4)、损失函数

6.2、按数据分类

(1)、分类

(2)、回归

(3)、序列标注

6.3、按监督分类

相关文章

ML之SL:监督学习(Supervised Learning)的简介、应用、经典案例之详细攻略

ML之UL:无监督学习Unsupervised Learning的概念、应用、经典案例之详细攻略

ML之SSL:Semi-Supervised Learning半监督学习的简介、应用、经典案例之详细攻略

(1)、监督学习

(2)、非监督学习

(3)、强化学习

6.4、按模型分类

(1)、生成式模型

(2)、判别式模型

七、经典机器学习模型

7.1、监督学习

(1)、经典算法

支持向量机

逻辑回归

决策树

(2)、概率图模型

朴素贝叶斯

最大熵模型

隐马尔可夫模型

条件随机场

7.2、非监督学习

相关文章

ML之Clustering之普聚类算法:普聚类算法的相关论文、主要思路、关键步骤、代码实现等相关配图之详细攻略

(1)、层次聚类

(2)、k均值聚类

(3)、高斯混合模型

(4)、主题模型

7.3、集成学习

相关文章

EL:集成学习(Ensemble Learning)的概念讲解、问题应用、算法分类、关键步骤、代码实现等相关配图详细攻略

(1)、Bagging

(2)、Boosting

(3)、GBDT

(4)、随机森林

7.4、降维算法

FE之DR之线性降维:PCA/白化、LDA算法的数学知识(协方差矩阵)、相关论文、算法骤、代码实现、案例应用等相关配图之详细攻略

7.5、采样

DataScience:对严重不均衡数据集进行多种采样策略(随机过抽样、SMOTE过采样、SMOTETomek综合采样、改变样本权重等)简介、经验总结之详细攻略

7.6、强化学习

ML之RL:强化学习Reinforcement Learning的简介、应用、经典案例、学习资源之详细攻略

八、深度学习模型

8.1、前向神经网络

(1)、多层感知机

DL之Perceptron:Perceptron感知器(感知机/多层感知机/人工神经元)的简介、原理、案例应用(相关配图)之详细攻略

(2)、卷积神经网络

DL之CNN:计算机视觉之卷积神经网络算法的简介(经典架构/论文)、CNN优化技术、调参学习实践、CNN经典结构及其演化、案例应用之详细攻略

(3)、深度残差网络

DL之ResNet:ResNet算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

(4)、自组织映射神经网络

(5)、受限玻尔兹曼机

8.2、循环神经网络

(1)、循环神经网络

DL之RNN:循环神经网络RNN的简介、应用、经典案例之详细攻略

(2)、长短期记忆模型

DL之LSTM:LSTM算法论文简介(原理、关键步骤、RNN/LSTM/GRU比较、单层和多层的LSTM)、案例应用之详细攻略

(3)、注意力机制

DL之Attention:Attention注意力机制的简介、应用领域之详细攻略

(4)、Seq2Seq

8.3、深度学习优化技巧

(1)、批量归一化

DataScience:深入探讨与分析机器学习中的数据处理之线性变换—标准化standardization、归一化Normalization/比例化Scaling的区别与联系

(2)、Dropout

DL之DNN优化技术:利用Dropout(简介、使用、应用)优化方法提高DNN模型的性能

(3)、激活函数

  • Sigmoid
  • Softmax
  • Tanh
  • ReLU

ML/DL之激活函数/求导函数:ML中常用的AF激活函数(step_function、sigmoid、softmax、ReLU等)&求导函数等代码实现之详细攻略

8.4、强化学习

ML之RL:强化学习Reinforcement Learning的简介、应用、经典案例、学习资源之详细攻略

8.5、生成式对抗网络

DL之GAN:生成对抗网络GAN的简介、应用、经典案例之详细攻略

九、业务与应用

9.1、计算机视觉

CV:人工智能之计算机视觉方向的简介(CV发展史+常用数据集+CV职位)、传统方法对比CNN类算法、计算机视觉八大应用(知识导图+经典案例)之详细攻略

9.2、自然语言处理

NLP:自然语言处理技术的简介、发展历史、案例应用之详细攻略

9.3、推荐系统

ML之RS:基于用户的CF+LFM实现的推荐系统(基于相关度较高的用户实现电影推荐)

9.4、计算广告

ML之FE:数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题

9.5、智能游戏

RL之PG:基于TF利用策略梯度算法玩Cartpole游戏实现智能得


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
12天前
|
存储 算法 Linux
【数据结构和算法】---二叉树(1)--树概念及结构
【数据结构和算法】---二叉树(1)--树概念及结构
12 0
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之深度学习算法概念
深度学习算法是一类基于人工神经网络的机器学习方法,其核心思想是通过多层次的非线性变换,从数据中学习表示层次特征,从而实现对复杂模式的建模和学习。深度学习算法在图像识别、语音识别、自然语言处理等领域取得了巨大的成功,成为人工智能领域的重要技术之一。
17 3
|
13天前
|
存储 算法 C语言
二分查找算法的概念、原理、效率以及使用C语言循环和数组的简单实现
二分查找算法的概念、原理、效率以及使用C语言循环和数组的简单实现
|
23天前
|
机器学习/深度学习 算法 C语言
详细介绍递归算法在 C 语言中的应用,包括递归的基本概念、特点、实现方法以及实际应用案例
【6月更文挑战第15天】递归算法在C语言中是强大力量的体现,通过函数调用自身解决复杂问题。递归涉及基本概念如自调用、终止条件及栈空间管理。在C中实现递归需定义递归函数,分解问题并设定停止条件。阶乘和斐波那契数列是经典应用示例,展示了递归的优雅与效率。然而,递归可能导致栈溢出,需注意优化。学习递归深化了对“分而治之”策略的理解。**
33 7
|
21天前
|
搜索推荐 算法
【排序】数据结构——排序算法概念及代码详解(插入、冒泡、快速、希尔)
【排序】数据结构——排序算法概念及代码详解(插入、冒泡、快速、希尔)
|
10天前
|
机器学习/深度学习 分布式计算 监控
在大数据模型训练中,关键步骤包括数据收集与清洗、特征工程、数据划分;准备分布式计算资源
【6月更文挑战第28天】在大数据模型训练中,关键步骤包括数据收集与清洗、特征工程、数据划分;准备分布式计算资源,选择并配置模型如深度学习架构;通过初始化、训练、验证进行模型优化;监控性能并管理资源;最后保存模型并部署为服务。过程中要兼顾数据隐私、安全及法规遵守,利用先进技术提升效率。
19 0
|
10天前
|
机器学习/深度学习
技术心得:机器学习的数学基础
技术心得:机器学习的数学基础
13 0
|
1月前
|
存储 NoSQL 算法
Redis集群,集群的概念 三种主流分片方式1.哈希求余 一致性哈希算法:方案三:哈希槽分区算法问题一Redis集群是最多有16384个分片吗问题二:为什么是16384个,集群扩容:1.新的主节点
Redis集群,集群的概念 三种主流分片方式1.哈希求余 一致性哈希算法:方案三:哈希槽分区算法问题一Redis集群是最多有16384个分片吗问题二:为什么是16384个,集群扩容:1.新的主节点
|
1月前
|
机器学习/深度学习 算法 Python
特征工程:机器学习成功的关键步骤
【6月更文挑战第4天】特征工程是机器学习的关键,涉及特征选择、构建和变换,旨在提升模型性能。通过处理原始数据,如顾客购买行为,选择相关特征,创建新特征并转换数据(如对数变换),可以增强模型预测能力。例如,对异常值丰富的收入数据进行对数变换,可提升模型稳定性和准确性。特征工程是耗时且需要创造力的过程,是连接数据与智能的桥梁,在机器学习中发挥着至关重要的作用。
41 2
|
21天前
|
存储 算法
【二叉树】数据结构——BST二叉树基本概念及算法设计(插入、删除、遍历操作)
【二叉树】数据结构——BST二叉树基本概念及算法设计(插入、删除、遍历操作)