R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(上)

简介: R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化

原文链接:http://tecdat.cn/?p=27546


本文用爬虫采集了汽车销售数据查看文末了解数据获取方式,后来对其进行了扩展,创建这个数据集,其中包括境内的所有二手车辆或者经销商车辆条目数据。这些数据每隔几个月就会被抓取一次,它包含 提供的关于汽车销售的大部分相关信息,包括价格、状况、制造商、纬度/经度和 18 个其他类别等列。对于机器学习ML 项目,请考虑对位置列(例如 long/lat)进行特征工程。


问题 #1 数据集中有多少个观测值?


# 我们可以通过计算行的数量来获得观察值的数量
## \[1\] 34677# 另外,我们可以得到数据集,并查看行数(观察值)。
dim(vposts)
## \[1\] 34677    27

问题 #2 变量的名称是什么?每个变量的类别是什么?


unist sply(X  vposs, FUN = las) )
prit.able( sply(X = vosts, FUN clss) )

问题 #3 所有车辆的平均价格是多少?中间价?和十分位数?在车辆价格分布图上显示这些。


让我们先来看看这个问题的一些数据探索过程。

denstyplot(osts$pice, min = "rice", xlab = Prie")

点击标题查阅往期内容


R语言空气污染数据的地理空间可视化和分析:颗粒物2.5(PM2.5)和空气质量指数(AQI)


01

02

03

04



# 可以肯定的是,9999999 30002500 600030000 600030000的价格是非常可疑的。# 让我们看看任何超过100,000的汽车。idx =which( vpss$price >=  100000 & !is.na(vpst$price) )


legt( idx )

idx = idx\[de(vpsts\[ idx, "price"\])\]

vos\[ idx, c(headr", "prce") \]


有一些非常昂贵的汽车,例如梅赛德斯-奔驰 G63 AMG、宾利慕尚、玛莎拉蒂 3500 GT、保时捷 GT 等。

也有很多汽车以 1 元的价格出售。这是以最低价格发布的常见广告策略,因为大多数人将价格从最低到最高排序,因此这些广告更频繁地出现在顶部。其中大部分是经销商的误导性广告,一些是汽车零部件,一些是汽车融资的报价。这里有太多数据需要手动清理,所以我们将它们排除在外。

idx = which( post$ri == 1 & !is.na(vpostspce) )idx = smple(x = dx, size = 60, replace = FALSE)

denstyplotvpots$pice\[ idx )

quantle(x = ve, probs = c(0.05,0.99), na.rm = TRUE)

dec = quantile(x = vposce\[ idx \], probs = seq(from = 0.1, to = 0.9, by = 0.1) )

plot(density(vpss$pce\[ idx \])

问题#4 有哪些不同类别的车辆,即类型变量/列?每个类别的比例是多少?


nams( table(vpoype, useNA = "ifany") )

ort( rond( x = prop.tbl( x = tae(vpst$type,eNA = "ifany") ),digis = 4) )

dott(x = sort(t), xlim = c(-0.05, 1.05), cex = 1.5)

t = prole( x = table(ts$type\[ !is.(vposs$type) \], usNA = "ifany") )


dolot(x

接近一半的数据缺少车辆类型。


问题#5 显示燃料类型和车辆类型之间的关系。这取决于变速类型吗?


我们可以从下面的整体马赛克图中看到,按变速箱类型,汽油车辆在车辆类型和变速箱类型中占主导地位,但值得注意的是卡车的柴油百分比高于其他车辆类型,以及带有自动档的公共汽车。

在点图中看到这些相同的关系可能比在马赛克图中更容易看到。

tbl = tbl\[ rw.orde, col.order \]

maicpot
(tbl


R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(中):https://developer.aliyun.com/article/1491735

相关文章
|
2月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
2月前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
2月前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
2月前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
2月前
|
数据可视化 数据挖掘 索引
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码2
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码
|
2月前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
2月前
|
存储 数据可视化 数据挖掘
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码1
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码
|
2月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
2月前
利用R语言进行典型相关分析实战
利用R语言进行典型相关分析实战
|
2月前
|
机器学习/深度学习 算法
R语言分类回归分析考研热现象分析与考研意愿价值变现
R语言分类回归分析考研热现象分析与考研意愿价值变现

热门文章

最新文章