原文链接:http://tecdat.cn/?p=27546
本文用爬虫采集了汽车销售数据(查看文末了解数据获取方式),后来对其进行了扩展,创建这个数据集,其中包括境内的所有二手车辆或者经销商车辆条目数据。这些数据每隔几个月就会被抓取一次,它包含 提供的关于汽车销售的大部分相关信息,包括价格、状况、制造商、纬度/经度和 18 个其他类别等列。对于机器学习ML 项目,请考虑对位置列(例如 long/lat)进行特征工程。
问题 #1 数据集中有多少个观测值?
# 我们可以通过计算行的数量来获得观察值的数量 ## \[1\] 34677# 另外,我们可以得到数据集,并查看行数(观察值)。 dim(vposts) ## \[1\] 34677 27
问题 #2 变量的名称是什么?每个变量的类别是什么?
unist sply(X vposs, FUN = las) ) prit.able( sply(X = vosts, FUN clss) )
问题 #3 所有车辆的平均价格是多少?中间价?和十分位数?在车辆价格分布图上显示这些。
让我们先来看看这个问题的一些数据探索过程。
denstyplot(osts$pice, min = "rice", xlab = Prie")
点击标题查阅往期内容
R语言空气污染数据的地理空间可视化和分析:颗粒物2.5(PM2.5)和空气质量指数(AQI)
01
02
03
04
# 可以肯定的是,9999999 30002500 600030000 600030000的价格是非常可疑的。# 让我们看看任何超过100,000的汽车。idx =which( vpss$price >= 100000 & !is.na(vpst$price) )
legt( idx )
idx = idx\[de(vpsts\[ idx, "price"\])\]
vos\[ idx, c(headr", "prce") \]
有一些非常昂贵的汽车,例如梅赛德斯-奔驰 G63 AMG、宾利慕尚、玛莎拉蒂 3500 GT、保时捷 GT 等。
也有很多汽车以 1 元的价格出售。这是以最低价格发布的常见广告策略,因为大多数人将价格从最低到最高排序,因此这些广告更频繁地出现在顶部。其中大部分是经销商的误导性广告,一些是汽车零部件,一些是汽车融资的报价。这里有太多数据需要手动清理,所以我们将它们排除在外。
idx = which( post$ri == 1 & !is.na(vpostspce) )idx = smple(x = dx, size = 60, replace = FALSE)
denstyplotvpots$pice\[ idx )
quantle(x = ve, probs = c(0.05,0.99), na.rm = TRUE)
dec = quantile(x = vposce\[ idx \], probs = seq(from = 0.1, to = 0.9, by = 0.1) )
plot(density(vpss$pce\[ idx \])
问题#4 有哪些不同类别的车辆,即类型变量/列?每个类别的比例是多少?
nams( table(vpoype, useNA = "ifany") )
ort( rond( x = prop.tbl( x = tae(vpst$type,eNA = "ifany") ),digis = 4) )
dott(x = sort(t), xlim = c(-0.05, 1.05), cex = 1.5)
t = prole( x = table(ts$type\[ !is.(vposs$type) \], usNA = "ifany") )
dolot(x
接近一半的数据缺少车辆类型。
问题#5 显示燃料类型和车辆类型之间的关系。这取决于变速类型吗?
我们可以从下面的整体马赛克图中看到,按变速箱类型,汽油车辆在车辆类型和变速箱类型中占主导地位,但值得注意的是卡车的柴油百分比高于其他车辆类型,以及带有自动档的公共汽车。
在点图中看到这些相同的关系可能比在马赛克图中更容易看到。
tbl = tbl\[ rw.orde, col.order \]
maicpot(tbl
R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(中):https://developer.aliyun.com/article/1491735