- Logistic回归
Logistic回归算法通常用于二进制分类问题,在这些情况下,事件通常会导致通过或失败,正确或错误这两个值中的任何一个。
最适合需要预测因变量将属于两类之一的概率的情况。
该算法的常见用例是确定给定的笔迹是否与所讨论的人匹配,或未来几个月的油价是否会上涨。
通常,回归可用于实际应用中,例如:
- 信用评分
- 癌症检测
- 地理图像处理
- 手写识别
- 图像分割与分类
- 衡量营销活动的成功率
- 预测某种产品的收入
- 特定日子会发生地震吗?
- 决策树
决策树算法属于监督型机器学习,用于解决回归和分类问题。目的是使用决策树从观察并处理每个级别的结果。
决策树是一种自上而下的方法,其中从训练数据中选择最合适的属性作为根,并对每个分支重复该过程。决策树通常用于:
- 建立知识管理平台
- 选择要旅行的航班
- 预测酒店的入住高峰日期
- 向客户建议要买什么车
- 预测预测并确定各个领域的可能性
决策树算法
- Apriori机器学习算法
它是几种在线平台上经常推荐的算法。
它通过在数据集中搜索通用的数据进行操作,然后在它们之间建立关联。
它通常用于数据挖掘和从关系数据库学习关联规则。
该算法背后的思想是保持相关项目尽可能扩展到更大的集合,以创建更有用的关联。
该算法的应用包括突出显示市场中的购买趋势。
此外,它更易于实现,并且可以用于大型数据集。
- 朴素贝叶斯
朴素贝叶斯分类器被归类为高效的监督ML算法,并且是最简单的贝叶斯网络模型之一。
它通过对数据应用贝叶斯定理,并假设给定变量的值的情况下,每对特征之间都具有条件独立性。
朴素贝叶斯分类
简而言之,考虑到事件B已经发生,用它来找到事件A发生的可能性。朴素贝叶斯最适合-
- 过滤垃圾邮件
- 推荐系统,例如Netflix
- 对有关技术,政治或体育的新闻文章进行分类
- 社交媒体上的情感分析
- 面部识别软件
- 人工神经网络
仿照人脑建模的人工神经网络实现了神经元的巨大迷宫,或者说简化并模拟了节点之间相互传递信息的过程。
这些相互连接的节点通过边缘将数据瞬时传递给其他节点,以进行快速处理,从而使学习更加顺畅。
人工神经网络从数据集中学习,而不是通过一组特定的规则进行编程。能够对非线性过程进行建模,它们可以在以下领域中实施:
- 模式识别
- 网络安全
- 数据挖掘
- 检测患者的癌症种类
人工神经网络算法
- K-Means聚类
k-均值聚类是一种迭代的无监督学习算法,可将n个观察值划分为k个簇,每个观察值均属于最近的簇均值。
K-means算法的步骤
简而言之,该算法基于数据点的相似性来聚合数据点的集合。它的应用范围包括在Python,SciPy,Sci-Kit Learn和data mining等编程语言和库中聚集相似和相关的网络搜索结果。
K均值聚类的实际应用-
- 识别假新闻
- 垃圾邮件检测和过滤
- 按类型对书籍或电影进行分类
- 规划城市时的热门交通路线
- 支持向量机
支持向量机被归类为监督机器学习算法,主要用于分类和回归分析。
该算法通过建立一个可以将新示例和新数据分配给一个类别的模型来工作,每个类别间可以容易地区别开来。
在维数大于样本数的情况下,SVM非常有效,并且存储效率极高。
高效的支持向量机算法
SVM应用程序可以在以下领域找到:
- 人脸检测
- 影像分类
- 文本和超文本分类
- 手写识别
- 药物疗法的发现
- 生物信息学-蛋白质,基因,生物学或癌症分类。
- K近邻算法
K近邻是一种用于回归和分类问题的监督ML算法。
通常用于模式识别,该算法首先存储并使用距离函数识别数据中所有输入之间的距离,选择最接近中心点的k个指定输入并输出:
- 最经常出现的标签(用于分类)
- k个最近邻居的平均值(用于回归)
K近邻算法
该算法的实际应用包括:
- 指纹检测
- 信用评级
- 预测股市
- 分析洗钱
- 银行破产
- 汇率
- 降维算法
降维算法通过使用两种主要方法(特征选择或特征提取)之一减少数据集中的维度空间或随机变量的数量来工作。
此算法通常用于预处理数据集并删除冗余特征,从而使算法更容易训练模型。
此算法还具有一些不错的好处,例如:
- 内储需求低
- 所需的计算能力更少
- 精度更高
- 降低噪音
一些著名的降维算法是:
- 主成分分析
- 线性判别分析
- 局部线性嵌入
- 多维缩放
- 主成分分析
主成分分析是ML的无监督算法之一,主要用于通过使用特征消除或特征提取来缩小特征空间的维数。
它也是探索性数据分析和建立预测模型的工具。需要标准化的数据,PCA可以作为帮助:
- 图像处理
- 电影推荐系统
- 计算数据协方差矩阵
- 对协方差矩阵执行特征值分解
- 优化多个通信通道中的功率分配
主成分分析法
PCA旨在减少数据集中的冗余,使其更简单而又不影响准确性。它通常部署在图像处理和风险管理领域。
- 随机森林
随机森林通过实现决策树使用多种算法来解决分类,回归和其他类似问题。
它的工作方式是,创建带有随机数据集的决策树堆,并在其上反复训练模型以获得接近准确的结果。
最后,将来自这些决策树的所有结果组合在一起,以识别出最常出现在输出中的最合适的结果。
随机森林
可以在以下领域找到“随机森林”应用程序:
- 银行账户,信用卡欺诈检测
- 检测并预测药物的药物敏感性
- 通过分析患者的病历来识别患者的疾病
- 预测购买特定股票时的估计损失或利润
- 梯度增强和Ada增强
增强是一种用于集成ML算法的技术,可将弱学习者转换为强学习者。当数据丰富时,需要使用增强算法,并且我们试图减少监督学习中的偏差和方差。以下是两种流行的增强算法。
- 梯度增强
通常以迭代方式(例如决策树)构建预测模型,将梯度增强算法用于分类和回归问题。通过对强者的错误进行培训,从而提高了弱者的学习能力,从而获得了一个比较准确的学习者。
- Ada增强
AdaBoost是Adaptive Boosting的缩写,当弱学习者失败时,它会改进模型。它通过修改附加到样本中实例的权重以将精力更多地集中在困难实例上来实现,然后,弱学习者的输出将被合并以形成加权总和,并被视为最终的提升后的输出。
结论:
机器学习算法对于数据科学家来说至关重要,因为它们在现实世界中的应用日益广泛。使用上述各种算法,您可以找到最适合解决问题的算法。尽管这些算法有有监督也有无监督,但它们可以处理各种任务,并且能够与其他算法同步工作。