机器学习--房屋销售的探索性数据分析

简介: 机器学习--房屋销售的探索性数据分析

一、导入相关包


numpy:python中做数据分析常用的包;


pandas:也是用于数据分析,擅长处理表,数据没那么大要放入内存中,这将是首选;


matplotlib.pyplot:源自matlab的画图工具;


seaborn:基于matplotlib,提供更多的画法  


剩下两行用于将图片设成svg文件(画起来分辨率相对高一点)


# !pip install seaborn pandas matplotlib numpy
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from IPython import display
display.set_matplotlib_formats('svg')
# Alternative to set svg for newer versions
# import matplotlib_inline
# matplotlib_inline.backend_inline.set_matplotlib_formats('svg')


二、读取数据


!wget https://c.d2l.ai/stanford-cs329p/_static/house_sales.ftr
data = pd.read_feather('house_sales.ftr')
data = pd.read_csv('house_sales.zip') # csv文件这样读取


csv文件存下来相对比较大,可以先压缩成一个zip或一个tar,主流的读取文件都可以从压缩文件中读取。建议存成压缩文件,在传输存储都会比较好,甚至还会比直接读取还要好(这个方法可用于文本)


data.head() 把前面几行信息打出来

adf23415d54f4c688470ac7254a5f666.png

将列中30%缺失的列删去,以此来简化数据

35e1a57cee0948148c04a14c8eb49f7c.png


inplace的作用是,直接将要去掉的列给改写掉(直接对数进行修改),可以省些内存,但是这个只能跑一次


检查数据类型


b99a513233cb4640aa4847cdeb28908f.png


处理错误的数据类型

44074dad8d3e435494457d6522b810de.png


 最后用data.describe()看看处理完的数据的特征  

31ee950f2ec34a65ac592a4eb05578b2.png

可以通过这里初步判断是否有噪音


三、做简单的处理  


fa41f0da19f34267b8f6469f755aceb4.png

33809f3b0e5e427a9f39daf88812d2e2.png

在这里用log10可以让分布均匀点  


查看房子的种类

89c84992aef74d7388d92a68ce4450d6.png

fac59e5f76b24aa29db0a33d395dd039.png

查看一平米可以卖多少钱

316ea7fa41894b51ab6da27d86991cbe.png

不同颜色是不同类别,那条横线表示的是均值,boxplot可以比较直观的看到不同分布之间的对比

查看每个邮政编码的房价  


f2f561cbb76f48da8f4a23a2412b3928.png

热力图

查看每个特征之间的关系(协方差)


7ba410ce46df4cac997fd2de8a6c207c.png

可以直观的看出, 跟我要预测的东西关联度最高


总结


本笔记本演示了EDA的基本技术,包括

理解列数据类型、值和分布

理解列之间的相互作用

参考代码 eda slides

目录
相关文章
|
机器学习/深度学习 数据采集 数据挖掘
实战派教学:掌握Scikit-learn,轻松实现数据分析与机器学习模型优化!
【10月更文挑战第4天】Scikit-learn凭借高效、易用及全面性成为数据科学领域的首选工具,简化了数据预处理、模型训练与评估流程,并提供丰富算法库。本文通过实战教学,详细介绍Scikit-learn的基础入门、数据预处理、模型选择与训练、评估及调优等关键步骤,助你快速掌握并优化数据分析与机器学习模型。从环境搭建到参数调优,每一步都配有示例代码,便于理解和实践。
357 2
|
7月前
|
机器学习/深度学习 数据可视化 算法
销售易CRM:移动端应用与数据分析双轮驱动企业增长
销售易CRM移动端应用助力企业随时随地掌控业务全局。销售人员可实时访问客户信息、更新进展,离线模式确保网络不佳时工作不中断。实时协作功能提升团队沟通效率,移动审批加速业务流程。强大的数据分析与可视化工具提供深度洞察,支持前瞻性决策。客户行为分析精准定位需求,优化营销策略。某中型制造企业引入后,业绩提升30%,客户满意度提高25%。
|
8月前
|
机器学习/深度学习 传感器 数据采集
基于机器学习的数据分析:PLC采集的生产数据预测设备故障模型
本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数,进行数据预处理和特征提取,选择合适的机器学习模型(如随机森林、XGBoost),并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查,强调模型预测应结合定期维护,确保系统稳定运行。
773 0
|
12月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
726 1
|
机器学习/深度学习 并行计算 数据挖掘
R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域
【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。
281 2
|
机器学习/深度学习 算法 数据挖掘
从零到精通:Scikit-learn在手,数据分析与机器学习模型评估不再难!
【10月更文挑战第4天】在数据科学领域,模型评估是连接理论与实践的桥梁,帮助我们理解模型在未知数据上的表现。对于初学者而言,众多评估指标和工具常令人困惑。幸运的是,Scikit-learn 这一强大的 Python 库使模型评估变得简单。本文通过问答形式,带你逐步掌握 Scikit-learn 的评估技巧。Scikit-learn 提供了丰富的工具,如交叉验证、评分函数(准确率、精确率、召回率、F1 分数)、混淆矩阵和 ROC 曲线等。
207 1
|
机器学习/深度学习 数据可视化 数据挖掘
数据可视化大不同!Python数据分析与机器学习中的Matplotlib、Seaborn应用新视角!
在数据科学与机器学习领域,数据可视化是理解数据和优化模型的关键。Python凭借其强大的可视化库Matplotlib和Seaborn成为首选语言。本文通过分析一份包含房屋面积、卧室数量等特征及售价的数据集,展示了如何使用Matplotlib绘制散点图,揭示房屋面积与售价的正相关关系;并利用Seaborn的pairplot探索多变量间的关系。在机器学习建模阶段,通过随机森林模型展示特征重要性的可视化,帮助优化模型。这两个库在数据分析与建模中展现出广泛的应用价值。
167 2
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
487 14
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
458 1
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
下一篇
开通oss服务