R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(上):https://developer.aliyun.com/article/1491734
dotplot(
prop.tabl
问题 #6 数据集中代表了多少个不同的城市?
length( levels(vpcity) )
问题 #7 直观地展示“车主出售”和“经销商出售”的数量/比例在不同城市之间的差异?
有点可疑的是,所有城市都有大约 5000 个观测值,并且每个城市内的百分比几乎是完美的 50/50。
请注意,我们还在设置部分创建了一个新变量ownerDealer
。
table(vpoity)
prop.table(taler, vposrgin = 2)
plot( table(vpostty, vporDealer, u
plot( prtable(table(vpoststy
条形图基本上显示了关键信息。由于我们对每个城市内所有者的待售百分比感兴趣,因此点图可能最能观察到这一点。
我们可以从表格和图表中非常清楚地看到,车主发帖和经销商发帖的百分比几乎是完美的 50/50,而且在不同城市之间似乎根本没有差异。
问题 #8 在这个数据集中,一辆车的最高价格是多少?检查这一点并修复该值。现在检查价格的新最高值。
我们在上面的问题 3 中看到,价格数据存在很多问题。
# 让我们使用一个四舍五入的平均价格nwPice = rund( man(osts$prieix
ix), digits = - 3) # 让我们看看我们是否能从数据集本身找到一个合适的点估计。 idx = ( voss $maer == adillac " & vpotsyaryar%in% c(2002) & vptsprice < 999999 &vpostspric > .case = TRUE) &
# 平均价格估计低于2500美元或3000美元的发布价格,因此使用较低的2500美元roud( meanvpots$prie\[id\]), diits = -3)
还有更多需要修复的地方。
问题 #9 每个城市“车主销售”和“经销商销售”最常见的三种汽车品牌是什么?它们是相似的还是完全不同的?
cities = levels(vposts$city)# 我们可以在一行中完成内部函数,但它很难读懂,所以把它分成几个步骤。# names( head( sort( table(vposts$maker\[ vposts$city == x & vposts$byOwner == y & sing = TRUE), 3) )makeByCityByOwner = lapply(X = c(TRUE, FALSE), FUN = function(y){ })names(makeByCityByOwner) = c("Owner", "Dealer") makeByCityByOwner
# 按业主和经销商检查每个城市的顶部是否匹配makeByyOwner$Owner\[ 1, \] == makeByOwner$Dealer\[ 1, \]
按城市出售的前 3 名中,有 2 名按所有者出售的产品在同一城市内的经销商出售的前 3 名中。
问题 #10 直观地比较不同城市的车龄分布以及“车主销售”和“经销商销售”。提供对图的解释,即关键结论和见解是什么?
2022 年的本田奥德赛“只有 117102 英里”,所以这可能是 2002 年的拼写错误。
年份 = 4 的 Jeep 可能是 2004 年,因为它有一个“AM/FM 盒式磁带播放器-muli CD 播放器”。
vpyear\[ vpyear == 2022 & !is.na(vpstsyer) \] = 2002vposts = osts\[ -which(pstsyar == 1900 & !is.na(vpotar)), \]vpotsyar\[ vposear == 4 & !is.na(vpose) \] = 2004vpossage = 2016 - vpyear histrm( ~ age | byOwn)
ix = ( vpsts$g < 25 & !is.na(vostge))
hitoram( ~ age | byOwne
# 按城市来看,不同城市的车主与经销商根本没有太大的区别。histogram( ~ age | byOwner + city,
似乎车主出售的汽车往往比经销商出售的汽车年份更老。但是,这因城市而异。
问题 #11 在地图上标出帖子的位置?你注意到了什么?
我们可以得出结论,在这些主要城市出售二手车的人(和/或汽车本身)的位置往往相当紧密地聚集在主要城市周围。
对于远离主要城市之一的地点,可能有多种解释。例如,当他们实际发布广告时,他们可能正在旅行。但总的来说,发布汽车的人的位置通常与他们试图出售车辆的城市相同。
我们可以通过使用 alpha 参数来控制绘图点的透明度,从而更好地查看密度和渗入其他区域的情况,从而对该图进行进一步改进。
map('state', mar = c(0,0,0,0))invisible( lapply( 1:le col.palette\[x\] ) } ) )legend("bottch = 15, cex = 0.9)
points(x = loionByCity\[\[ "sac" \]\]$lette\[1\] )points(x = locationBy\[\[ "sfbay" \]\]$l5\] )
问题 #12 总结燃料类型、驱动和车辆类型的分布。
请注意,在下面的点图中,不同面板中的分布几乎相同,但分布在中间列中显示出一些变化,其中fuel type = "gas"
. 因此,我们基本上可以将燃料类型从图中删除,子集只fuel type = "gas"
考虑其余三个变量之间的关系。
dotplot( table(vpossts$drive, vposransmission, vpo$type))dotplot( tasts$type,sts$uel,vpos$drive, vpostrnsmission,
auto.key = list(co )
# 对于几乎所有的数据,燃料=汽油。table(vposts$fuel, useNA = "ifany")
我们看到自动档 fuel == "gas"
在所有类型的汽车中最常见,其次是手动。在后轮驱动车辆中,手动档比例确实高于轿跑车和敞篷车的其他车型,这是有道理的,因为轿跑车和敞篷车往往是跑车。在四轮驱动中,越野车比例更高。
dotplot(
prop.table( table(vposts$ty
R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(下):https://developer.aliyun.com/article/1491736