线性回归实战【房价预测】(一)

简介: 本文属于 线性回归算法【AIoT阶段三】(尚未更新),这里截取自其中一段内容,方便读者理解和根据需求快速阅读。本文通过公式推导+代码两个方面同时进行,因为涉及到代码的编译运行,如果你没有NumPy,Pandas,Matplotlib的基础,建议先修文章:数据分析三剑客【AIoT阶段一(下)】(十万字博文 保姆级讲解)

前言

本文属于 线性回归算法【AIoT阶段三】(尚未更新),这里截取自其中一段内容,方便读者理解和根据需求快速阅读。本文通过公式推导+代码两个方面同时进行,因为涉及到代码的编译运行,如果你没有NumPy,Pandas,Matplotlib的基础,建议先修文章:数据分析三剑客【AIoT阶段一(下)】(十万字博文 保姆级讲解)


线性

回归预测房价

1.数据加载

首先导包:

import numpy as np
from sklearn import datasets
from sklearn.linear_model import LinearRegression

我们要实现的是对 波士顿 这个城市进行房价预测,有关 波士顿 的数据,可以直接用代码:

boston = datasets.load_boston()

我们来看一下 datasets.load_boston() 里面都有哪些数据:

13.png

数据由三部分组成:image.png

我们把这些信息分开来处理:

boston = datasets.load_boston()
X = boston['data']   # 数据,这些数据影响了房价,统计指标
y = boston['target'] # 房价,24就表示24万美金
# CRIM:犯罪率
# NOX:空气污染,N含量
# TAX:税收
# 这些指标都和放假有关
feature_names = boston['feature_names'] # 具体指标

2.数据查看

# 506 表示 506 个统计样本
# 13 表示影响房价的 13 个属性
X.shape

image.png

# 506 个房子
# X -----> y 是一一对应的
# 数据 -----> 目标值对应
y.shape

image.png

3.数据拆分

# 506个数据、样本
# 拆分成两份:一份 80%用于训练,一份20%用于验证
# 拿出其中的80%,交给算法(线性回归),去进行学习、总结、拟合函数
# 20%作用:验证,测一测,看看算法,学习80%结束,是否准确
# 如何划分:利用 numpy 的 shuffle 打乱数据
index = np.arange(506)
np.random.shuffle(index)
index

14.png

506×80%405,故我们拿出打乱后的前 405个数据用于训练算法,其余数据用于验证算法:

# 80% 训练数据
train_index = index[:405]
X_train = X[train_index]
y_train = y[train_index]
# 20% 测试数据
test_index = index[405:]
X_test = X[test_index]
y_test = y[test_index]


目录
相关文章
|
7月前
|
存储 人工智能 自然语言处理
智能系统的知识库管理技术
本方案聚焦智能系统的知识库管理,深度融合AI技术与精细化流程控制。通过多模态数据统一存储,实现文本、语音、图像等全格式兼容与智能解析;构建全流程内容管理体系,涵盖创建、审核、更新环节,确保信息精准可靠;提供智能标签分类、版本追溯功能,支持秒级定位与历史对比;采用语义检索技术,打破数据孤岛,助力企业高效利用与优化知识资产,保障安全存储及持续增值。
312 1
|
11月前
|
机器学习/深度学习 算法 数据挖掘
线性回归模型的原理、实现及应用,特别是在 Python 中的实践
本文深入探讨了线性回归模型的原理、实现及应用,特别是在 Python 中的实践。线性回归假设因变量与自变量间存在线性关系,通过建立线性方程预测未知数据。文章介绍了模型的基本原理、实现步骤、Python 常用库(如 Scikit-learn 和 Statsmodels)、参数解释、优缺点及扩展应用,强调了其在数据分析中的重要性和局限性。
571 3
|
10月前
|
存储 缓存 自然语言处理
SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架
KV缓存是大语言模型(LLM)处理长文本的关键性能瓶颈,现有研究多聚焦于预填充阶段优化,忽视了解码阶段的重要性。本文提出SCOPE框架,通过分离预填充与解码阶段的KV缓存策略,实现高效管理。SCOPE保留预填充阶段的关键信息,并在解码阶段引入滑动窗口等策略,确保重要特征的有效选取。实验表明,SCOPE仅用35%原始内存即可达到接近完整缓存的性能水平,显著提升了长文本生成任务的效率和准确性。
481 3
SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架
|
存储 分布式计算 关系型数据库
Dataphin中如何使用Hologres外表查询MaxCompute
Hologres支持通过创建外部表来加速MaxCompute数据的查询,此方法用户直接在Hologres环境中访问和分析存储在MaxCompute中的数据,从而提高查询效率并简化数据处理流程。本文将介绍在 Dataphin 产品中如何实现这一操作。
485 1
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
647 73
|
12月前
|
机器学习/深度学习 数据可视化 Python
使用最小二乘法进行线性回归(Python)
【10月更文挑战第28天】本文介绍了使用Python实现最小二乘法进行线性回归的步骤,包括数据准备、计算均值、计算斜率和截距、构建线性回归方程以及预测和可视化结果。通过示例代码展示了如何从创建数据点到最终绘制回归直线的完整过程。
364 2
|
12月前
|
机器学习/深度学习 算法 Python
使用Python实现简单的线性回归模型
【10月更文挑战第2天】使用Python实现简单的线性回归模型
152 1
|
分布式计算 Kubernetes 大数据
为什么说大数据和云计算的深度融合是大势所趋?
为什么说大数据和云计算的深度融合是大势所趋?
为什么说大数据和云计算的深度融合是大势所趋?
|
Ubuntu 应用服务中间件 网络安全
Tomcat 下载
【7月更文挑战第16天】
641 4
|
缓存 数据库 索引
everything 本地文件搜索工具 完胜WIndows搜索 速度99% 超级给力
everything 本地文件搜索工具 完胜WIndows搜索 速度99% 超级给力
271 1