学习笔记: 机器学习经典算法-多元线性回归的正规方程解

简介: 机器学习经典算法-个人笔记和学习心得分享

简单线性回归刻画的是样本的 1维特征与样本输出标记之间的关系;对于样本的多特征,刻画多特征与输出标记之间的多元线性关系描述为$ y = \theta_{0} + \theta_{1}x_{1} + \theta_{2}x_{2}... + \theta_{n}x_{n}$。

1、多元线性回归的目标函数

求解多元线性回归的目标函数同简单线性回归一样,使预测结果与真实结果的误差尽可能小:
$$\sum^{m}_{i} {(\hat y^{(i)} - y^{(i)})^{2}}$$
$$ \hat y^{(i)} = \theta_{0}x_{0}^{(i)} + \theta_{1}x_{1}^{(i)} ... + \theta_{n}x_{n}^{(i)},x_{0}^{(i)} = 1$$

$$\theta = (\theta_{0} ,\theta_{1} ,... ,\theta_{n} )^{T},X^{(i)}= (x_{0}^{(i)},x_{1}^{(i)},...,x_{n}^{(i)})$$
$$\hat y^{(i)} = \theta \cdot X^{i}$$
推广到多样本形式
$X_{b} = \begin{bmatrix} 1&x_1^{(1)}&x_2^{(1)}&...&x_n^{(1)} \\ 1&x_1^{(2)}&x_2^{(2)}&...&x_n^{(2)} \\ ... \\ 1&x_1^{(m)}&x_2^{(m)}&...&x_n^{(m)} \end{bmatrix}, \theta = \begin{bmatrix} \theta_{0} \\ \theta_{1} \\ ... \\ \theta_{n}\end{bmatrix}$
在$\theta$里,$\theta_{0}$对应回归关系式中的截距(intercept)或者说偏移,与样本特征无关;$\theta_{1}...\theta_{n}$是系数(coefficients),它们描述的是特征对样本输出标记的贡献程度。

$\therefore \hat y = X_{b} \cdot \theta$

带入$\hat y $,目标函数写为$\sum^{m}_{i} {(\hat y^{(i)} - y^{(i)})^{2}} = (y - X_b\cdot\theta)^{T} (y - X_b\cdot\theta)$

2、多元线性回归的数学解

2.1 正规方程解的数学表达式

通过使得目标函数$(y - X_b\cdot\theta)^{T} (y - X_b\cdot\theta)$尽可能得小来求解$\theta$,求解方法同简单线性回归一样使用最小二乘法,对函数中的每个$\theta _{i}$求偏导。由于运算对象从单个数变成了矩阵, 在矩阵上求导求极值的推导过程有点复杂(涉及线代以外的知识)。
多元线性回归的正规方程解(Normal Equation)
$$\theta = (X_{b}^{T}X_{b})^{-1}X_{b}^{T}y$$
缺点:正规方程解的时间复杂度高:$O(n^3)$,其中$n$不区分高维矩阵的行数或列数。
优点:不需要对数据进行归一化处理,最后的$\theta$就是原始数据的方程运算结果。

2.2 python实现

class LinearRegression:
    def __init__(self):
        """初始化Linear Regression 模型"""
        self.coef_ = None
        self.interception_ = None
        self._theta = None
    def fit(self,x_train,y_train):
        """根据训练集x_train,y_train训练Linear Regression 模型"""
        assert x_train.shape[0] == y_train.shape[0], "the size of x_train must be equal to the size of y_train"

        X_b = np.hstack([np.ones((len(x_train),1)),x_train])
        self._theta = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y_train);
        self.interception_ = self._theta[0]
        self.coef_ = self._theta[1:]

        return self

    def predict(self,x_predict):
        """给定待预测数据集x_predict,返回表示x_predict的结果向量"""
        assert self.interception_ is not None and self.coef_ is not None, "must fit before predict!"
        assert x_predict.shape[1] == len(self.coef_)," the feature number of x_predict must be equal to x_train"

        X_b = np.hstack([np.ones((len(x_predict),1)),x_predict])
        return X_b.dot(self._theta)

    def __repr__(self):
        return "LinearRegression()"


### 算法测试
### prepare data
from sklearn import datasets
boston = datasets.load_boston()
x = boston.data[ boston.target < 50 ]
y = boston.target[boston.target < 50]
from sklearn.model_selection import train_test_split
Train_X,Test_X,Train_Y,Test_Y = train_test_split(x,y,test_size= 0.2,random_state=666)

### test method
reg = LinearRegression()
reg.fit(Train_X,Train_Y)
reg.predict(Test_X)

3、scikit-learn框架下的回归求解

3.1 多元线性回归

from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(Train_X,Train_Y)
lin_reg.coef_ ### 系数贡献度
lin_reg.intercept_ ### 关系式偏移
lin_reg.score(Test_X,Test_Y) ### 模型准确度得分

3.2 kNN Regressor

算法背景 ML- kNN(k近邻算法)

from sklearn.neighbors import KNeighborsRegressor
### kNN模型超参数网格搜索
knn_reg = KNeighborsRegressor()
param_grid = [
    {
        'weights':['uniform'],
        'n_neighbors':[i for i in range(1,11)]
    },
    {
        'weights':['distance'],
        'n_neighbors':[i for i in range(1,11)],
        'p':[i for i in range(1,6)]
    }
]
from sklearn.model_selection import GridSearchCV
grid_search = GridSearchCV(knn_reg,param_grid,n_jobs= 6, verbose = 2)
grid_search.fit(Train_X,Train_Y)
print(grid_search.best_estimator_)
### 使用网格搜索得到的最优超参数训练模型
knn_reg = grid_search.best_estimator_
knn_reg.predict(Test_X)
knn_reg.score(Test_X,Test_Y)

4、线性回归的可解释性

对于线性回归的系数(coefficients)来说,特征前面的系数为正意味着该特征与样本的输出标记呈正相关关系,系数为负表明负相关;系数的绝对值大小代表了相关程度。对系数按大小排序,从而用来筛选对样本的输出标记最相关的特征。因此,对于拿到的一组数据,不管数据的输出标记与特征之间有何关系,都可以首先通过线性回归的处理对数据的特征进行一定的了解。

5、线性回归的特点

① 典型的参数学习算法:
② 只能解决回归问题;对比kNN,既可以解决分类问题又能解决回归问题。
③ 对数据有前提假设:线性关系;只有数据集本身具有很强的线性关系,线性回归的结果才能更好(比如kNN也能处理回归,但回归误差就不如线性回归)。
⑤ 最大优点:线性回归是一个白盒子算法,训练出的模型和参数可以解释数据集的内在关联。

目录
相关文章
|
6月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
11月前
|
机器学习/深度学习 数据采集 人工智能
20分钟掌握机器学习算法指南
在短短20分钟内,从零开始理解主流机器学习算法的工作原理,掌握算法选择策略,并建立对神经网络的直观认识。本文用通俗易懂的语言和生动的比喻,帮助你告别算法选择的困惑,轻松踏入AI的大门。
728 8
|
12月前
|
机器学习/深度学习 存储 Kubernetes
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
机器学习/深度学习 人工智能 自然语言处理
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
442 6
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
2404 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
机器学习/深度学习 算法 数据安全/隐私保护
基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络
本项目展示了人脸识别算法的运行效果(无水印),基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络(GRNN)、概率神经网络(PNN)、深度神经网络(DNN)和反向传播(BP)神经网络在人脸识别中的应用,涵盖各算法的结构特点与性能比较。
|
机器学习/深度学习 算法 网络安全
CCS 2024:如何严格衡量机器学习算法的隐私泄露? ETH有了新发现
在2024年CCS会议上,苏黎世联邦理工学院的研究人员提出,当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施(HAMP、RelaxLoss、SELENA、DFKD和SSL),发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳,而强大的差分隐私基线则提供了更好的隐私-效用权衡。
350 14
|
人工智能 编解码 算法
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
501 0
|
机器学习/深度学习 人工智能 自然语言处理
解锁机器学习的新维度:元学习的算法与应用探秘
元学习作为一个重要的研究领域,正逐渐在多个应用领域展现其潜力。通过理解和应用元学习的基本算法,研究者可以更好地解决在样本不足或任务快速变化的情况下的学习问题。随着研究的深入,元学习有望在人工智能的未来发展中发挥更大的作用。
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
531 2

热门文章

最新文章