R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(中)

简介: R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化

R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(上):https://developer.aliyun.com/article/1491734


dotplot(


 prop.tabl

问题 #6 数据集中代表了多少个不同的城市?


length( levels(vpcity) )

问题 #7 直观地展示“车主出售”和“经销商出售”的数量/比例在不同城市之间的差异?


有点可疑的是,所有城市都有大约 5000 个观测值,并且每个城市内的百分比几乎是完美的 50/50。

请注意,我们还在设置部分创建了一个新变量ownerDealer

table(vpoity)

prop.table(taler, vposrgin = 2)

plot( table(vpostty, vporDealer, u

plot( prtable(table(vpoststy

条形图基本上显示了关键信息。由于我们对每个城市内所有者的待售百分比感兴趣,因此点图可能最能观察到这一点。

我们可以从表格和图表中非常清楚地看到,车主发帖和经销商发帖的百分比几乎是完美的 50/50,而且在不同城市之间似乎根本没有差异。


问题 #8 在这个数据集中,一辆车的最高价格是多少?检查这一点并修复该值。现在检查价格的新最高值。


我们在上面的问题 3 中看到,价格数据存在很多问题。

# 让我们使用一个四舍五入的平均价格nwPice = rund( man(osts$prieix

ix), digits = - 3) # 让我们看看我们是否能从数据集本身找到一个合适的点估计。 idx = ( voss $maer == adillac " & vpotsyaryar%in% c(2002) &             vptsprice < 999999 &vpostspric > .case = TRUE) &

# 平均价格估计低于2500美元或3000美元的发布价格,因此使用较低的2500美元roud( meanvpots$prie\[id\]), diits = -3)

还有更多需要修复的地方。


问题 #9 每个城市“车主销售”和“经销商销售”最常见的三种汽车品牌是什么?它们是相似的还是完全不同的?


cities = levels(vposts$city)# 我们可以在一行中完成内部函数,但它很难读懂,所以把它分成几个步骤。#      names( head( sort( table(vposts$maker\[ vposts$city == x & vposts$byOwner == y & sing = TRUE), 3) )makeByCityByOwner = lapply(X = c(TRUE, FALSE), FUN = function(y){
})names(makeByCityByOwner) = c("Owner", "Dealer")
makeByCityByOwner

# 按业主和经销商检查每个城市的顶部是否匹配makeByyOwner$Owner\[ 1, \] == makeByOwner$Dealer\[ 1, \]

按城市出售的前 3 名中,有 2 名按所有者出售的产品在同一城市内的经销商出售的前 3 名中。


问题 #10 直观地比较不同城市的车龄分布以及“车主销售”和“经销商销售”。提供对图的解释,即关键结论和见解是什么?


2022 年的本田奥德赛“只有 117102 英里”,所以这可能是 2002 年的拼写错误。

年份 = 4 的 Jeep 可能是 2004 年,因为它有一个“AM/FM 盒式磁带播放器-muli CD 播放器”。

vpyear\[ vpyear == 2022 & !is.na(vpstsyer) \] = 2002vposts = osts\[ -which(pstsyar == 1900 & !is.na(vpotar)), \]vpotsyar\[ vposear == 4 & !is.na(vpose) \] = 2004vpossage = 2016 - vpyear
histrm( ~ age | byOwn)

ix = ( vpsts$g < 25 & !is.na(vostge))

hitoram( ~ age | byOwne

# 按城市来看,不同城市的车主与经销商根本没有太大的区别。histogram( ~ age | byOwner + city,

似乎车主出售的汽车往往比经销商出售的汽车年份更老。但是,这因城市而异。


问题 #11 在地图上标出帖子的位置?你注意到了什么?


我们可以得出结论,在这些主要城市出售二手车的人(和/或汽车本身)的位置往往相当紧密地聚集在主要城市周围。

对于远离主要城市之一的地点,可能有多种解释。例如,当他们实际发布广告时,他们可能正在旅行。但总的来说,发布汽车的人的位置通常与他们试图出售车辆的城市相同。

我们可以通过使用 alpha 参数来控制绘图点的透明度,从而更好地查看密度和渗入其他区域的情况,从而对该图进行进一步改进。

map('state', mar = c(0,0,0,0))invisible( 
  lapply( 1:le col.palette\[x\]  )
        }
  ) 
)legend("bottch = 15, cex = 0.9)

points(x = loionByCity\[\[ "sac" \]\]$lette\[1\] )points(x = locationBy\[\[ "sfbay" \]\]$l5\] )

问题 #12 总结燃料类型、驱动和车辆类型的分布。


请注意,在下面的点图中,不同面板中的分布几乎相同,但分布在中间列中显示出一些变化,其中fuel type = "gas". 因此,我们基本上可以将燃料类型从图中删除,子集只fuel type = "gas"考虑其余三个变量之间的关系。

dotplot( table(vpossts$drive, vposransmission, vpo$type))dotplot( tasts$type,sts$uel,vpos$drive, vpostrnsmission,


        auto.key = list(co )

# 对于几乎所有的数据,燃料=汽油。table(vposts$fuel, useNA = "ifany")


我们看到自动档 fuel == "gas"在所有类型的汽车中最常见,其次是手动。在后轮驱动车辆中,手动档比例确实高于轿跑车和敞篷车的其他车型,这是有道理的,因为轿跑车和敞篷车往往是跑车。在四轮驱动中,越野车比例更高。

dotplot(


 prop.table( table(vposts$ty


R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(下):https://developer.aliyun.com/article/1491736

相关文章
|
4月前
|
数据可视化 数据挖掘 图形学
R语言基础可视化:使用ggplot2构建精美图形的探索
【8月更文挑战第29天】 `ggplot2`是R语言中一个非常强大的图形构建工具,它基于图形语法提供了一种灵活且直观的方式来创建各种统计图形。通过掌握`ggplot2`的基本用法和美化技巧,你可以轻松地将复杂的数据转化为直观易懂的图形,从而更好地理解和展示你的数据分析结果。希望本文能够为你探索`ggplot2`的世界提供一些帮助和启发。
|
4月前
|
数据可视化 数据挖掘 数据处理
R语言高级可视化技巧:使用Plotly与Shiny制作互动图表
【8月更文挑战第30天】通过使用`plotly`和`shiny`,我们可以轻松地创建高度互动的数据可视化图表。这不仅增强了图表的表现力,还提高了用户与数据的交互性,使得数据探索变得更加直观和高效。本文仅介绍了基本的使用方法,`plotly`和`shiny`还提供了更多高级功能和自定义选项,等待你去探索和发现。希望这篇文章能帮助你掌握使用`plotly`和`shiny`制作互动图表的技巧,并在你的数据分析和可视化工作中发挥更大的作用。
|
2月前
|
机器学习/深度学习 数据采集 人工智能
R语言是一种强大的编程语言,广泛应用于统计分析、数据可视化、机器学习等领域
R语言是一种广泛应用于统计分析、数据可视化及机器学习的强大编程语言。本文为初学者提供了一份使用R语言进行机器学习的入门指南,涵盖R语言简介、安装配置、基本操作、常用机器学习库介绍及实例演示,帮助读者快速掌握R语言在机器学习领域的应用。
101 3
|
7月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
3月前
|
数据采集
基于R语言的GD库实现地理探测器并自动将连续变量转为类别变量
【9月更文挑战第9天】在R语言中,可通过`gd`包实现地理探测器。首先,安装并加载`gd`包;其次,准备包含地理与因变量的数据框;然后,使用`cut`函数将连续变量转换为分类变量;最后,通过`gd`函数运行地理探测器,并打印结果以获取q值等统计信息。实际应用时需根据数据特点调整参数。
162 8
|
4月前
|
数据可视化
R语言可视化设计原则:打造吸引力十足的数据可视化
【8月更文挑战第30天】R语言可视化设计是一个综合性的过程,需要综合运用多个设计原则来创作出吸引力十足的作品。通过明确目标、选择合适的图表类型、合理运用色彩与视觉层次、明确标注与引导视线以及引入互动性与动态效果等原则的应用,你可以显著提升你的数据可视化作品的吸引力和实用性。希望本文能为你提供一些有益的启示和帮助。
|
7月前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
2月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
55 3
|
7月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
下一篇
DataWorks