R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(上)

简介: R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化

原文链接:http://tecdat.cn/?p=27546


本文用爬虫采集了汽车销售数据查看文末了解数据获取方式,后来对其进行了扩展,创建这个数据集,其中包括境内的所有二手车辆或者经销商车辆条目数据。这些数据每隔几个月就会被抓取一次,它包含 提供的关于汽车销售的大部分相关信息,包括价格、状况、制造商、纬度/经度和 18 个其他类别等列。对于机器学习ML 项目,请考虑对位置列(例如 long/lat)进行特征工程。


问题 #1 数据集中有多少个观测值?


# 我们可以通过计算行的数量来获得观察值的数量
## \[1\] 34677# 另外,我们可以得到数据集,并查看行数(观察值)。
dim(vposts)
## \[1\] 34677    27

问题 #2 变量的名称是什么?每个变量的类别是什么?


unist sply(X  vposs, FUN = las) )
prit.able( sply(X = vosts, FUN clss) )

问题 #3 所有车辆的平均价格是多少?中间价?和十分位数?在车辆价格分布图上显示这些。


让我们先来看看这个问题的一些数据探索过程。

denstyplot(osts$pice, min = "rice", xlab = Prie")

点击标题查阅往期内容


R语言空气污染数据的地理空间可视化和分析:颗粒物2.5(PM2.5)和空气质量指数(AQI)


01

02

03

04



# 可以肯定的是,9999999 30002500 600030000 600030000的价格是非常可疑的。# 让我们看看任何超过100,000的汽车。idx =which( vpss$price >=  100000 & !is.na(vpst$price) )


legt( idx )

idx = idx\[de(vpsts\[ idx, "price"\])\]

vos\[ idx, c(headr", "prce") \]


有一些非常昂贵的汽车,例如梅赛德斯-奔驰 G63 AMG、宾利慕尚、玛莎拉蒂 3500 GT、保时捷 GT 等。

也有很多汽车以 1 元的价格出售。这是以最低价格发布的常见广告策略,因为大多数人将价格从最低到最高排序,因此这些广告更频繁地出现在顶部。其中大部分是经销商的误导性广告,一些是汽车零部件,一些是汽车融资的报价。这里有太多数据需要手动清理,所以我们将它们排除在外。

idx = which( post$ri == 1 & !is.na(vpostspce) )idx = smple(x = dx, size = 60, replace = FALSE)

denstyplotvpots$pice\[ idx )

quantle(x = ve, probs = c(0.05,0.99), na.rm = TRUE)

dec = quantile(x = vposce\[ idx \], probs = seq(from = 0.1, to = 0.9, by = 0.1) )

plot(density(vpss$pce\[ idx \])

问题#4 有哪些不同类别的车辆,即类型变量/列?每个类别的比例是多少?


nams( table(vpoype, useNA = "ifany") )

ort( rond( x = prop.tbl( x = tae(vpst$type,eNA = "ifany") ),digis = 4) )

dott(x = sort(t), xlim = c(-0.05, 1.05), cex = 1.5)

t = prole( x = table(ts$type\[ !is.(vposs$type) \], usNA = "ifany") )


dolot(x

接近一半的数据缺少车辆类型。


问题#5 显示燃料类型和车辆类型之间的关系。这取决于变速类型吗?


我们可以从下面的整体马赛克图中看到,按变速箱类型,汽油车辆在车辆类型和变速箱类型中占主导地位,但值得注意的是卡车的柴油百分比高于其他车辆类型,以及带有自动档的公共汽车。

在点图中看到这些相同的关系可能比在马赛克图中更容易看到。

tbl = tbl\[ rw.orde, col.order \]

maicpot
(tbl


R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(中):https://developer.aliyun.com/article/1491735

相关文章
|
3月前
|
数据可视化 数据挖掘 图形学
R语言基础可视化:使用ggplot2构建精美图形的探索
【8月更文挑战第29天】 `ggplot2`是R语言中一个非常强大的图形构建工具,它基于图形语法提供了一种灵活且直观的方式来创建各种统计图形。通过掌握`ggplot2`的基本用法和美化技巧,你可以轻松地将复杂的数据转化为直观易懂的图形,从而更好地理解和展示你的数据分析结果。希望本文能够为你探索`ggplot2`的世界提供一些帮助和启发。
|
3月前
|
数据可视化 数据挖掘 数据处理
R语言高级可视化技巧:使用Plotly与Shiny制作互动图表
【8月更文挑战第30天】通过使用`plotly`和`shiny`,我们可以轻松地创建高度互动的数据可视化图表。这不仅增强了图表的表现力,还提高了用户与数据的交互性,使得数据探索变得更加直观和高效。本文仅介绍了基本的使用方法,`plotly`和`shiny`还提供了更多高级功能和自定义选项,等待你去探索和发现。希望这篇文章能帮助你掌握使用`plotly`和`shiny`制作互动图表的技巧,并在你的数据分析和可视化工作中发挥更大的作用。
|
6月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
2月前
|
数据采集
基于R语言的GD库实现地理探测器并自动将连续变量转为类别变量
【9月更文挑战第9天】在R语言中,可通过`gd`包实现地理探测器。首先,安装并加载`gd`包;其次,准备包含地理与因变量的数据框;然后,使用`cut`函数将连续变量转换为分类变量;最后,通过`gd`函数运行地理探测器,并打印结果以获取q值等统计信息。实际应用时需根据数据特点调整参数。
126 8
|
3月前
|
数据可视化
R语言可视化设计原则:打造吸引力十足的数据可视化
【8月更文挑战第30天】R语言可视化设计是一个综合性的过程,需要综合运用多个设计原则来创作出吸引力十足的作品。通过明确目标、选择合适的图表类型、合理运用色彩与视觉层次、明确标注与引导视线以及引入互动性与动态效果等原则的应用,你可以显著提升你的数据可视化作品的吸引力和实用性。希望本文能为你提供一些有益的启示和帮助。
|
6月前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
6月前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
6月前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
21天前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
40 3

热门文章

最新文章