机器学习笔记

简介: 机器学习笔记

机器学习开发流程


1.首先掌握各类分析方法的特性,不仅需要了解如何使用各类算法,还要了解其实现原理,这样在参数优化和模型改进时可以减少无效调整

2.在选择模型之前,要对数据进行探索性分析,了解数据类型和数据特征,发现数据之间的关系,可应用箱图,直方图,散点图等

3.在模型选择中,可以开始选出可能的模型几个,结合业务选择自变量,选择模型后,比较不同模型的拟合程度,可以统计显著性参数、R平方等,在单个模型中可以使用交叉验证分析,反复调整参数,误差分析(数据质量、算法选择、特征选择、参数设置)


机器学习基本方法


统计分析


1.描述性统计

2.推断性统计:

参数估计:对样本整体中某个数值进行估计,如推断总体平均值

假设检验:通过对所做的推断进行验证


概率分布


T-分布,卡方分布,F-分布


T-分布:根据小样本来估计呈正态分布且方差未知的总体的均值,基于在卡方分布的得到的值

其中n为自由度

卡方分布:

所服从的分布是自由度为n(独立正态随机变量的个数)的卡方分布。

则卡方随机变量的概率密度函数:

F分布:

参数估计


假设检验


特征工程


特征选取:构造新的特征

特征选择:从数据本身中找到有用的特征


处理数值特征:


最大最小标准化,Z-分数标准化


处理分类特征:


用数字替换每个值(one-hot),创建虚拟变量(编码矩阵)


处理时间特征:


时间序列分析


处理文本特征:


创建单词计数向量,TF-IDF


处理缺失数据:


删除包含缺失数据的特征。移除包含缺失数据的行,用重要数据代替缺失值(平均值,中值)


降维:


Seaborn


分布图


seaborn.distplot(dist_data_1,bins=10)
• 1


20210426160711540.png

双变量分布


seaborn.jointplot(x=dist_data_2,y=dist_data_1)

20210426160814372.png



相关文章
|
1月前
|
机器学习/深度学习 计算机视觉 Python
模型预测笔记(三):通过交叉验证网格搜索机器学习的最优参数
本文介绍了网格搜索(Grid Search)在机器学习中用于优化模型超参数的方法,包括定义超参数范围、创建参数网格、选择评估指标、构建模型和交叉验证策略、执行网格搜索、选择最佳超参数组合,并使用这些参数重新训练模型。文中还讨论了GridSearchCV的参数和不同机器学习问题适用的评分指标。最后提供了使用决策树分类器进行网格搜索的Python代码示例。
59 1
|
5月前
|
机器学习/深度学习 算法 BI
机器学习笔记(一) 感知机算法 之 原理篇
机器学习笔记(一) 感知机算法 之 原理篇
|
5月前
|
机器学习/深度学习 算法 数据可视化
技术心得记录:机器学习笔记之聚类算法层次聚类HierarchicalClustering
技术心得记录:机器学习笔记之聚类算法层次聚类HierarchicalClustering
52 0
|
5月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
40 0
|
6月前
|
机器学习/深度学习 自然语言处理 PyTorch
fast.ai 机器学习笔记(四)(1)
fast.ai 机器学习笔记(四)
137 1
fast.ai 机器学习笔记(四)(1)
|
6月前
|
机器学习/深度学习 数据挖掘 Python
fast.ai 机器学习笔记(一)(4)
fast.ai 机器学习笔记(一)
127 1
fast.ai 机器学习笔记(一)(4)
|
6月前
|
机器学习/深度学习 Python 文件存储
fast.ai 机器学习笔记(一)(3)
fast.ai 机器学习笔记(一)
132 1
fast.ai 机器学习笔记(一)(3)
|
6月前
|
存储 机器学习/深度学习 前端开发
fast.ai 机器学习笔记(一)(2)
fast.ai 机器学习笔记(一)
124 1
fast.ai 机器学习笔记(一)(2)
|
6月前
|
机器学习/深度学习 Python 索引
fast.ai 机器学习笔记(二)(4)
fast.ai 机器学习笔记(二)
55 0
fast.ai 机器学习笔记(二)(4)
|
6月前
|
索引 机器学习/深度学习 Python
fast.ai 机器学习笔记(二)(3)
fast.ai 机器学习笔记(二)
71 0
fast.ai 机器学习笔记(二)(3)