暂无个人介绍
2022年04月
基于核的算法是将输入数据映射到一个高阶的向量空间,在高阶向量空间里,有些分类或者回
归问题能够更容易地解决。
训练数据:每条数据都有标签(知道所属的类),一个标签代表一类。
测试数据:把新数据(无标签)的每一个特征与样本集中数据对应的特征进行比较,然后提取
与训练数据集最相似的(最邻近)的分类标签。
最后提取样本数据集中前K个最相似的数据(kNN的出处)和K 一般小于20的整数。在K个数
据中,出现最多的标签作为该数据的标签。
机器学习算法中LDA对于单个输入变量包括每类的平均值和跨所有类别计算的方差。
具体的识别步骤包括:
1、计算样本数据中的点与当前点之间的距离
2、算法提取样本最相似数据(最近邻)的分类标签
3、确定前k个点所在类别的出现频率. 一般只选择样本数据集中前k个最相似的数据
4、k-近邻算法中k的出处,通常k是不大于20的整数
5、返回前k个点所出现频率最高的类别作为当前点的预测分类
专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知
识结构使之不断改善自身的性能。
机器学习的一个主要目的,就是把人类思考归纳经验的过程,转化为计算机通过对数据的处理
计算得出模型的过程。
回归算法就可以理解是研究不同变量相关关系的一个机器学习算法。
Ordinary Least Squares Regression (OLSR)
Linear Regression
Logistic Regression
Stepwise Regression
Locally Estimated Scatterplot Smoothing (LOESS)
Multivariate Adaptive Regression Splines (MARS)
事件发生的概率p()与之间的非线性函数是单调函数,有良好的连续性,无断点
该非线性函数的值域即事件发生的概率p()为(0,1)
该非线性函数的定义域即自变量的取值为(-∞,+∞)
1、读题。读懂题目的意思,要知道题目想做什么。
2、建模。利用什么样的数据结构来实现。
3、代码实现。写出代码框架。
4、调试、优化。
1.线性回归 (Linear Regression)
2.逻辑回归 (Logistic Regression)
3.决策树 (Decision Tree)
4.支持向量机(SVM)
5.朴素贝叶斯 (Naive Bayes)
6.K邻近算法(KNN)
7.K-均值算法(K-means)
8.随机森林 (Random Forest)
9.降低维度算法(Dimensionality Reduction Algorithms)
10.Gradient Boost和Adaboost算法
18世纪末在研究人口变化的时候,发现人口变化率和人口基数成正比,即有:=r*N(t) 其
中N(t)表示t时刻的人口总数,r是常数表示变化率。
解该微分方程有:N(t)=,为初始值,单调递增,数目无限增长。
皮埃尔-弗朗索瓦-魏吕乐修正了该模型:
=r*N(t) *(1-),K也是常数,表示系统容量
上式即为Logistic方程。随着N(t)随时间的增长并不断接近系统的容量K,N(t)的增长
率是逐渐减小的。
令f(t)=,整理后的得到:
=rf(1-f)
解:f(t)= 令=,r=1: f(t)==
常见的基于核的算法包括: 支持向量机(Support Vector Machine, SVM),径向基
函数(Radial Basis Function, RBF), 以及线性判别分析(Linear
Discriminate Analysis,LDA)等。
贝叶斯方法算法是基于贝叶斯定理的一类算法,主要用来解决分类和回归问题
常见算法包括: 朴素贝叶斯算法, 平均单依赖估计(Averaged One-Dependence
Estimators,AODE) , 以及 Bayesian Belief Network(BBN) 。
关联规则学习通过寻找最能够解释数据变量之间关系的规则,来找出大多元数据集中有用联规
则常见算法包括 Apriori 算法和 Ec t 算法等。
有序变量 :没有数量关系 ,但是有次序关系。 比如:年龄层次、 收入等级、客户级别等
名义变量:既无等级关系,也无数量关系。比如:性别、天气、职业等
分类变量又称定性变量、离散型变量,观测的个体只能属于几种互不相容的类别中的一种,一
般用非数字来表达其类别,这种数据被称为分类变量。与之相对的是连续变量,即定量变量,是
由测量、计数或者统计等得到,这些变量具有数值特征。
回归函数改用范围在[0,1]之间的连续曲线,常用的为:
Logisitic 函数,即f(x)= ex /1+ex=1/ 1+e-x次方
1、误差项非正态分布:误差分布为两点型离散分布,不是正态分布
2、误差项零均值异方差:均值为0 ,误差的方差依赖于自变量,会随着自变量的不同水平而变
化,是异方差