机器学习的相关算法了解和总结

本文涉及的产品
应用实时监控服务-应用监控,每月50GB免费额度
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
简介: 机器学习的相关算法了解和总结

@[toc]

机器学习的相关算法了解和总结


1、机器学习的一般步骤

训练集训练 -> 提取特征向量 -> 结合一定的算法(比如决策树、KNN) -> 得到结果

机器学习的几个核心主要是 分类、随机、决策、迭代、猜测

其实就是一个通过经验总结进行结果猜测的过程,那么,提供的
经验样本(训练数据)越多,优化(迭代)的越好,猜测的准确度就越高

2、相关算法

Adaboost 算法   
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),
然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)


K均值聚类算法
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法


最近邻算法 KNN
邻近算法,或者说K最邻近(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中
最简单的方法之一
所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值
来代表。近邻算法就是将数据集合中每一个记录进行分类的方法


朴素贝叶斯
朴素贝叶斯法(Naive Bayes model)是基于贝叶斯定理与特征条件独立假设的分类方法


逻辑回归分析
logistic回归 又称 logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,
疾病自动诊断,经济预测等领域
logistic回归 是一种概率分析模型,通过自变量和因变量推测某件事情发生(或者某种情况出现)
的概率


马尔可夫过程
马尔可夫过程(Markov process)是一类随机过程。它的原始模型马尔可夫链,
由俄国数学家A.A.马尔可夫于1907年提出

3、决策树

决策树(Decision Tree)是一种简单但是广泛使用的分类器,我们通过训练数据构建
决策树,可以高效的对未知的数据进行分类
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取
净现值的期望值大于等于零的概率,
评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种
决策分支画成图形很像一棵树的枝干,故称决策树
# 优点
1、决策树模型可以读性好,具有描述性,有助于人工分析
2、效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度
在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系
算法演进 ID3  C4.5  C5.0

4、支持向量机 SVM



支持向量机(Support Vector Machines,SVM)是一种二分类模型
它将实例的特征向量映射为空间中的一些点,SVM 的目的就是想要画出一条线,
以 “最好地” 区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类
SVM 适合中小型数据样本、非线性、高维的分类问题



SVM 通过点到向量线的垂直距离最大,从而得到一条最合适的划分线
但是样本的特征很可能是高纬度的,此时的样本空间划分就不是一条线了,此时称为超平面


但是很多情况下,样本是线性不可区分的,数据集在空间中对应的向量无法被一个超平面区
分开,那么此时,就需要通过把样本映射到高维空间中,比如三维、六维

一个 SVM 如果训练得出的支持向量个数比较少,那么SVM 训练出的模型比较容易被泛化


Python 的 SVM 可以通过 sklearn 来学习


核函数

求内积

5、神经网络

人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为
神经网络(NNs)或称作连接模型(Connection Model)
它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型


这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的



神经网络通过分类器推断某个输入是某个结果的概率,然后通过逐步微调参数(程序反复迭代),
使得推断(猜测)的结果无限趋近于真实情况

6、随机森林算法

随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树
而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法
成百上千棵决策树组成了森林

随机森林算法相较于其他算法,有很好的准确率,并且能有效的运行在大数据集上

相关的基础知识概念

1、信息、熵以及信息增益的概念
2、决策树
3、集成学习

随机森林的思想

森林中有很多的决策树,每棵树都是独立的。每棵决策树都可以发表自己对于某个问题的看法
少数优秀的决策树的决策结果,将获得更高的权重,从而组成一个强分类器
然后决策树对结果进行选举投票,来确认最终的结果

每棵决策树随机从训练集中抽取样本进行训练,这样,每棵树的训练集都是不同的,但是树的训练集里面可能含有重复的样本(样本抽取并不会减少样本库数量)
进行随机抽取样本训练的目的,是为了获得不同的决策树,但是不同的决策树的训练样本有一定的交集,这是为了防止所有的决策树对于某些事情的结果存在偏见

相关文章
|
4月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
216 6
|
10天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络
本项目展示了人脸识别算法的运行效果(无水印),基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络(GRNN)、概率神经网络(PNN)、深度神经网络(DNN)和反向传播(BP)神经网络在人脸识别中的应用,涵盖各算法的结构特点与性能比较。
|
6天前
|
人工智能 编解码 算法
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
|
2月前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
382 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
解锁机器学习的新维度:元学习的算法与应用探秘
元学习作为一个重要的研究领域,正逐渐在多个应用领域展现其潜力。通过理解和应用元学习的基本算法,研究者可以更好地解决在样本不足或任务快速变化的情况下的学习问题。随着研究的深入,元学习有望在人工智能的未来发展中发挥更大的作用。
|
2月前
|
机器学习/深度学习 算法 网络安全
CCS 2024:如何严格衡量机器学习算法的隐私泄露? ETH有了新发现
在2024年CCS会议上,苏黎世联邦理工学院的研究人员提出,当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施(HAMP、RelaxLoss、SELENA、DFKD和SSL),发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳,而强大的差分隐私基线则提供了更好的隐私-效用权衡。
62 14
|
3月前
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
118 2
|
4月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
89 1
|
4月前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024