线性回归实战【房价预测】(二)

简介: 本文属于 线性回归算法【AIoT阶段三】(尚未更新),这里截取自其中一段内容,方便读者理解和根据需求快速阅读。本文通过公式推导+代码两个方面同时进行,因为涉及到代码的编译运行,如果你没有NumPy,Pandas,Matplotlib的基础,建议先修文章:数据分析三剑客【AIoT阶段一(下)】(十万字博文 保姆级讲解)

4.数据建模

np.set_printoptions(suppress = True) # 不使用科学计数法
model = LinearRegression(fit_intercept = True)
# 建模:算法、方程
model.fit(X_train, y_train)
# 建模获取了斜率,斜率有大有小,有正有负
# 斜率为正代表正相关(面积),为负代表负相关(犯罪率)
display(model.coef_, model.intercept_)

image.png

5.模型验证

# 模型预测的结果:y_
y_ = model.predict(X_test).round(2)
# 展示前 30 个:
display(y_[:30])
# 展示真实结果的前 30 个:
display(y_test[:30])

image.png

算法的预测难免会有异常值,这是 不可避免的!

6.模型评估

# 最大值是 1,最小值可以小于 0
# 这个指标越接近 1,说明算法越优秀
model.score(X_test, y_test)

image.png

# 再来判断一下训练数据的得分
model.score(X_train, y_train)

image.png

显然,训练数据的得分是高的,这就好比我们在考试前都会做模拟题,我们如果考试卷的大部分题目都和模拟题是一样的,那么我们的分数就会高一些,如果考试的题目都是新题,那么我们的分数就会低一些

当然,我们评测数据不止这一个方法,下面简单介绍一下别的方法:

# 最小二乘法
from sklearn.metrics import mean_squared_error
# 这个是测试数据,对应的是 20%
y_pred = model.predict(X_test)
y_true = y_test
mean_squared_error(y_true, y_pred)

image.png

我们再来看那 80 % 的训练数据:

# 80% 的训练数据:
mean_squared_error(y_train, model.predict(X_train))

image.png

注意我们这里的分数是error,越小越好!

目录
相关文章
|
机器学习/深度学习 数据采集 数据可视化
【数据分析与可视化】SKlearn主要功能和模块概述(图文解释 简单易懂)
【数据分析与可视化】SKlearn主要功能和模块概述(图文解释 简单易懂)
569 0
|
2月前
|
机器学习/深度学习 人工智能 算法
Google DeepMind新产物: 行星级卫星嵌入数据集(10m)光学+雷达+DEM+climate...
Google 推出 Earth Engine 卫星嵌入数据集,利用 AI 将一年的多源卫星数据压缩至每个 10 米像素,实现高效地理空间分析。基于 AlphaEarth Foundations 模型,该数据集提供 64 维嵌入向量,支持相似性搜索、变化检测、自动聚类和精准分类,助力环境研究与应用。
244 0
|
3月前
|
机器学习/深度学习 人工智能 监控
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
本系列文章深入讲解了从Seq2Seq、RNN到Transformer,再到GPT模型的关键技术原理与实现细节,帮助读者全面掌握Transformer及其在NLP中的应用。同时,通过一个房价预测的完整案例,介绍了算法工程师如何利用数据训练模型并解决实际问题,涵盖需求分析、数据收集、模型训练与部署等全流程。文章适合初学者和开发者学习AI基础与实战技能。
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
Dataset之Boston:Boston波士顿房价数据集的简介、下载、使用方法之详细攻略
Dataset之Boston:Boston波士顿房价数据集的简介、下载、使用方法之详细攻略
|
索引 流计算 消息中间件
Flink 实时写入数据到 ElasticSearch 性能调优
线上业务反应使用 Flink 消费上游 kafka topic 里的轨迹数据出现 backpressure,数据积压严重。单次 bulk 的写入量为:3000/50mb/30s,并行度为 48。针对该问题,为了避免影响线上业务申请了一个与线上集群配置相同的 ES 集群。
|
11月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
人工智能 自然语言处理 搜索推荐
AI智能导诊源码,可应用于微信线上挂号、互联网医院、区域平台、智能硬件等场景
人体智能导诊系统:是基于医疗AI、自然语言处理技术,推出的在线导医分诊智能工具,在医疗中使用的引导患者自助就诊挂号。 在就诊的过程中有许多患者不知道需要挂什么号,要看什么病,通过人体智能导诊系统,点击对应的人体部位,选择自身疾病的症状表现,准确推荐科室,引导患者挂号就诊,实现科学就诊,减少患者挂错号多跑路的情况。可应用于微信线上挂号、互联网医院、区域平台等场景中,解决了患者因医学知识缺乏,院内咨询不便所导致的医患资源错配的痛点,同时满足医院智慧服务评级的诉求。
434 0
|
架构师 云计算
“如何成为阿里云P8架构师?“ ”当然是考取阿里云新版ACE认证啊!”
阿里云新版云计算架构师ACE认证全面重构上线!为建立云计算生态领域含金量第一的专家级人才标准和认证体系,影响泛云生态高层次技术人才,阿里云历时一年,组织近百位专家,对云计算架构师ACE认证进行了里程碑式升级重构!
“如何成为阿里云P8架构师?“ ”当然是考取阿里云新版ACE认证啊!”
【分治法】典型题目示例、含详细注释
【分治法】典型题目示例、含详细注释
441 0
【分治法】典型题目示例、含详细注释
|
缓存 边缘计算 运维
更极速:CDN边缘Serverless产品发布——EdgeRoutine边缘程序
随着云原生技术的普及,阿里云可编程CDN能力逐渐增强,已经实现在靠近用户的边缘,支持将无状态的业务逻辑以函数或容器的方式在边缘完成算力卸载,以此提供最短时延的交互响应。同时,基于阿里云CDN平台强大的基础资源能力和高性能架构,可以轻松满足企业海量的弹性需求。在1月6日的阿里云CDN年度产品升级发布会中,阿里云高级产品经理陈章炜对EdgeRoutine进行了详细解读。
5812 1
更极速:CDN边缘Serverless产品发布——EdgeRoutine边缘程序