R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(中)

简介: R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化

R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(上):https://developer.aliyun.com/article/1491734


dotplot(


 prop.tabl

问题 #6 数据集中代表了多少个不同的城市?


length( levels(vpcity) )

问题 #7 直观地展示“车主出售”和“经销商出售”的数量/比例在不同城市之间的差异?


有点可疑的是,所有城市都有大约 5000 个观测值,并且每个城市内的百分比几乎是完美的 50/50。

请注意,我们还在设置部分创建了一个新变量ownerDealer

table(vpoity)

prop.table(taler, vposrgin = 2)

plot( table(vpostty, vporDealer, u

plot( prtable(table(vpoststy

条形图基本上显示了关键信息。由于我们对每个城市内所有者的待售百分比感兴趣,因此点图可能最能观察到这一点。

我们可以从表格和图表中非常清楚地看到,车主发帖和经销商发帖的百分比几乎是完美的 50/50,而且在不同城市之间似乎根本没有差异。


问题 #8 在这个数据集中,一辆车的最高价格是多少?检查这一点并修复该值。现在检查价格的新最高值。


我们在上面的问题 3 中看到,价格数据存在很多问题。

# 让我们使用一个四舍五入的平均价格nwPice = rund( man(osts$prieix

ix), digits = - 3) # 让我们看看我们是否能从数据集本身找到一个合适的点估计。 idx = ( voss $maer == adillac " & vpotsyaryar%in% c(2002) &             vptsprice < 999999 &vpostspric > .case = TRUE) &

# 平均价格估计低于2500美元或3000美元的发布价格,因此使用较低的2500美元roud( meanvpots$prie\[id\]), diits = -3)

还有更多需要修复的地方。


问题 #9 每个城市“车主销售”和“经销商销售”最常见的三种汽车品牌是什么?它们是相似的还是完全不同的?


cities = levels(vposts$city)# 我们可以在一行中完成内部函数,但它很难读懂,所以把它分成几个步骤。#      names( head( sort( table(vposts$maker\[ vposts$city == x & vposts$byOwner == y & sing = TRUE), 3) )makeByCityByOwner = lapply(X = c(TRUE, FALSE), FUN = function(y){
})names(makeByCityByOwner) = c("Owner", "Dealer")
makeByCityByOwner

# 按业主和经销商检查每个城市的顶部是否匹配makeByyOwner$Owner\[ 1, \] == makeByOwner$Dealer\[ 1, \]

按城市出售的前 3 名中,有 2 名按所有者出售的产品在同一城市内的经销商出售的前 3 名中。


问题 #10 直观地比较不同城市的车龄分布以及“车主销售”和“经销商销售”。提供对图的解释,即关键结论和见解是什么?


2022 年的本田奥德赛“只有 117102 英里”,所以这可能是 2002 年的拼写错误。

年份 = 4 的 Jeep 可能是 2004 年,因为它有一个“AM/FM 盒式磁带播放器-muli CD 播放器”。

vpyear\[ vpyear == 2022 & !is.na(vpstsyer) \] = 2002vposts = osts\[ -which(pstsyar == 1900 & !is.na(vpotar)), \]vpotsyar\[ vposear == 4 & !is.na(vpose) \] = 2004vpossage = 2016 - vpyear
histrm( ~ age | byOwn)

ix = ( vpsts$g < 25 & !is.na(vostge))

hitoram( ~ age | byOwne

# 按城市来看,不同城市的车主与经销商根本没有太大的区别。histogram( ~ age | byOwner + city,

似乎车主出售的汽车往往比经销商出售的汽车年份更老。但是,这因城市而异。


问题 #11 在地图上标出帖子的位置?你注意到了什么?


我们可以得出结论,在这些主要城市出售二手车的人(和/或汽车本身)的位置往往相当紧密地聚集在主要城市周围。

对于远离主要城市之一的地点,可能有多种解释。例如,当他们实际发布广告时,他们可能正在旅行。但总的来说,发布汽车的人的位置通常与他们试图出售车辆的城市相同。

我们可以通过使用 alpha 参数来控制绘图点的透明度,从而更好地查看密度和渗入其他区域的情况,从而对该图进行进一步改进。

map('state', mar = c(0,0,0,0))invisible( 
  lapply( 1:le col.palette\[x\]  )
        }
  ) 
)legend("bottch = 15, cex = 0.9)

points(x = loionByCity\[\[ "sac" \]\]$lette\[1\] )points(x = locationBy\[\[ "sfbay" \]\]$l5\] )

问题 #12 总结燃料类型、驱动和车辆类型的分布。


请注意,在下面的点图中,不同面板中的分布几乎相同,但分布在中间列中显示出一些变化,其中fuel type = "gas". 因此,我们基本上可以将燃料类型从图中删除,子集只fuel type = "gas"考虑其余三个变量之间的关系。

dotplot( table(vpossts$drive, vposransmission, vpo$type))dotplot( tasts$type,sts$uel,vpos$drive, vpostrnsmission,


        auto.key = list(co )

# 对于几乎所有的数据,燃料=汽油。table(vposts$fuel, useNA = "ifany")


我们看到自动档 fuel == "gas"在所有类型的汽车中最常见,其次是手动。在后轮驱动车辆中,手动档比例确实高于轿跑车和敞篷车的其他车型,这是有道理的,因为轿跑车和敞篷车往往是跑车。在四轮驱动中,越野车比例更高。

dotplot(


 prop.table( table(vposts$ty


R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(下):https://developer.aliyun.com/article/1491736

相关文章
|
2月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
2月前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
2月前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
2月前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
2月前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
2月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
2月前
利用R语言进行典型相关分析实战
利用R语言进行典型相关分析实战
|
2月前
|
机器学习/深度学习 算法
R语言分类回归分析考研热现象分析与考研意愿价值变现
R语言分类回归分析考研热现象分析与考研意愿价值变现
|
2月前
|
数据可视化 定位技术
R语言贝叶斯INLA空间自相关、混合效应、季节空间模型、SPDE、时空分析野生动物数据可视化
R语言贝叶斯INLA空间自相关、混合效应、季节空间模型、SPDE、时空分析野生动物数据可视化
|
2月前
|
机器学习/深度学习 数据可视化 算法
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为1
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为

热门文章

最新文章