机器学习:基本算法分类体系结构和文章汇总

简介: 机器学习:基本算法分类体系结构和文章汇总

机器学习定义

从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测


算法是核心,数据和计算是基础

掌握算法思想,使用库或框架解决问题


数据类型

离散型数据 计数数据,数据都是整数,不能再细分

连续型数据 某个范围内取任意一数,非整数


机器学习算法分类

监督学习 特征值 + 目标值
    -分类 目标值离散型数据
        -k-近邻算法
        -贝叶斯分类
        -决策树与随机森林
        -逻辑回归
        -神经网络
    -回归 目标值连续型数据
        -线性回归
        -岭回归
    -标注
        -隐马尔科夫模型(不要求)
无监督学习 特征值
    聚类 K-means

分类是监督学习的一个核心问题,最基础的是二分类问题


机器学习的开发流程

1、根据原始数据明确问题种类

2、数据基本处理,pd(缺失值,合并表)

3、特征工程

4、找到合适的算法进行预测(分类,回归),参数调优

模型:算法 + 数据

5、 模型评估,判断效果

6、上线使用,以api形式提供


特征工程3大知识点

-特征抽取

-特征预处理

-特征降维


转换器与预估器

转换器transformer

fit_transform() 输入数据直接转换
fit() 输入数据,但不做事情,会用这个数据计算平均值等数据
transform() 进行数据转换
fit_transform = fit + transform
估计器estimator
sklearn机器学习算法实现
分类估计器
    -sklearn.neighbors k-近邻算法
    -sklearn.naive_bayes 贝叶斯
    -sklearn.linear_model.LogisticRegression 逻辑回归
    -sklearn.tree 决策树与随机森林
回归估计器
    -sklearn.linear_model.LinearRegression 线性回归
    -sklearn.linear_model.Ridge 岭回归

基本使用流程

fit(X_train, y_train)

y_predict = predict(X_test)

score(X_test, y_test)


API

sklearn.metrics.classification_report


知识结构

数据集划分
    -训练集和测试集 
    -train_test_split
转换器和估计器
    -转换器
        -实例化
        -fit_transform
        -fit
        -transform
    -估计器
        -实现了一类算法的API
        -流程
            -fit训练数据
            -predict预测测试集的结果
            -score得出准确率
分类算法
    -目标值是离散型
    -K-近邻
        -距离公式
        -优点
            -理解简单,易于实现
        -缺点
            -K值取值
            -性能问题,不太合适用在大量的数据集
        -超参数
        -数据的处理:标准化(必须)
    -朴素贝叶斯
        -条件独立,才能叫朴素贝叶斯
        -概率公式 条件概率和联合概率
        -贝叶斯公式
        -优点
            -主要在文本分类上应用
            -准确率比较高
            -理论基础:概率
        -缺点
            -条件独立
            -历史数据的准确性影响较大
        -数据处理:文本的特征抽取
    -决策树
        -信息论
            -信息熵
            -信息增益
            -信息熵的大小变化是和不确定性相关
        -分类依据
            -信息增益(掌握)
            -信息增益比
            -基尼系数(scikitlearn默认)
        -优点
            -准确率高
            -适用于各种数据
            -可解释性
        -缺点
            -容易过拟合,树的建立太深
    -随机森林
        -一种集成学习方法,多个同样的分类器组成
        -多个决策树组成
        -建立过程
        -优点
            -准确率高
            -不会过拟合
            -对大数据集适用
        -超参数,树的深度,多少棵树
分类算法的评估
    -准确率
    -精确率和召回率
        -混淆矩阵
        -每个类别都会有
    -模型调参数
        -交叉验证 为了让数据都能够进行验证和训练
            -训练数据(训练+验证)
            -K折交叉验证
        -网格搜索 
            -每个参数都会查看效果,选出效果好的参数
            -参数的组合(1, 2)

文章汇总

机器学习:特征工程字典特征和文本特征抽取

https://blog.csdn.net/mouday/article/details/86325387


机器学习:数据特征预处理归一化和标准化

https://blog.csdn.net/mouday/article/details/86378595


机器学习:数据特征预处理缺失值处理

https://blog.csdn.net/mouday/article/details/86430553


机器学习:数据降维特征选择和主成分分析PCA

https://blog.csdn.net/mouday/article/details/86437866


机器学习:sklearn数据集简介

https://blog.csdn.net/mouday/article/details/86441782


机器学习:K-近邻算法对鸢尾花数据进行分类预测

https://blog.csdn.net/mouday/article/details/86501149


机器学习:朴素贝叶斯算法对新闻分类

https://blog.csdn.net/mouday/article/details/86516935


机器学习:分类模型的评估精确率Presicion和召回率Recall

https://blog.csdn.net/mouday/article/details/86562391


机器学习:模型选择与调优交叉验证和网格搜索

https://blog.csdn.net/mouday/article/details/86562457


机器学习:信息熵决策树预测泰坦尼克数据

https://blog.csdn.net/mouday/article/details/86565057


机器学习:随机森林预测泰坦尼克数据

https://blog.csdn.net/mouday/article/details/86567939


机器学习:线性回归基础知识

https://blog.csdn.net/mouday/article/details/86619285


机器学习:欠拟合过拟合岭回归预测波士顿房价

https://blog.csdn.net/mouday/article/details/86652862


机器学习:sklearn训练结果的保存和加载

https://blog.csdn.net/mouday/article/details/86652953


机器学习:逻辑回归预测癌症数据

https://blog.csdn.net/mouday/article/details/86653227


机器学习: k-means聚类对数据进行预分类

https://blog.csdn.net/mouday/article/details/86662154

相关文章
|
16天前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
58 4
|
13天前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
31 1
|
22天前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
22天前
|
机器学习/深度学习 算法
深入探索机器学习中的决策树算法
深入探索机器学习中的决策树算法
32 0
|
8天前
|
算法
基于WOA算法的SVDD参数寻优matlab仿真
该程序利用鲸鱼优化算法(WOA)对支持向量数据描述(SVDD)模型的参数进行优化,以提高数据分类的准确性。通过MATLAB2022A实现,展示了不同信噪比(SNR)下模型的分类误差。WOA通过模拟鲸鱼捕食行为,动态调整SVDD参数,如惩罚因子C和核函数参数γ,以寻找最优参数组合,增强模型的鲁棒性和泛化能力。
|
14天前
|
机器学习/深度学习 算法 Serverless
基于WOA-SVM的乳腺癌数据分类识别算法matlab仿真,对比BP神经网络和SVM
本项目利用鲸鱼优化算法(WOA)优化支持向量机(SVM)参数,针对乳腺癌早期诊断问题,通过MATLAB 2022a实现。核心代码包括参数初始化、目标函数计算、位置更新等步骤,并附有详细中文注释及操作视频。实验结果显示,WOA-SVM在提高分类精度和泛化能力方面表现出色,为乳腺癌的早期诊断提供了有效的技术支持。
|
1天前
|
存储 算法
基于HMM隐马尔可夫模型的金融数据预测算法matlab仿真
本项目基于HMM模型实现金融数据预测,包括模型训练与预测两部分。在MATLAB2022A上运行,通过计算状态转移和观测概率预测未来值,并绘制了预测值、真实值及预测误差的对比图。HMM模型适用于金融市场的时间序列分析,能够有效捕捉隐藏状态及其转换规律,为金融预测提供有力工具。
|
1天前
|
机器学习/深度学习 算法 信息无障碍
基于GoogleNet深度学习网络的手语识别算法matlab仿真
本项目展示了基于GoogleNet的深度学习手语识别算法,使用Matlab2022a实现。通过卷积神经网络(CNN)识别手语手势,如"How are you"、"I am fine"、"I love you"等。核心在于Inception模块,通过多尺度处理和1x1卷积减少计算量,提高效率。项目附带完整代码及操作视频。
|
10天前
|
算法
基于GA遗传算法的PID控制器参数优化matlab建模与仿真
本项目基于遗传算法(GA)优化PID控制器参数,通过空间状态方程构建控制对象,自定义GA的选择、交叉、变异过程,以提高PID控制性能。与使用通用GA工具箱相比,此方法更灵活、针对性强。MATLAB2022A环境下测试,展示了GA优化前后PID控制效果的显著差异。核心代码实现了遗传算法的迭代优化过程,最终通过适应度函数评估并选择了最优PID参数,显著提升了系统响应速度和稳定性。
|
7天前
|
算法
基于WOA鲸鱼优化的购售电收益与风险评估算法matlab仿真
本研究提出了一种基于鲸鱼优化算法(WOA)的购售电收益与风险评估算法。通过将售电公司购售电收益风险计算公式作为WOA的目标函数,经过迭代优化计算出最优购电策略。实验结果表明,在迭代次数超过10次后,风险价值收益优化值达到1715.1万元的最大值。WOA还确定了中长期市场、现货市场及可再生能源等不同市场的最优购电量,验证了算法的有效性。核心程序使用MATLAB2022a实现,通过多次迭代优化,实现了售电公司收益最大化和风险最小化的目标。